小红花·文摘

该文章介绍了一种新的多目标强化学习框架，用于优化无线网络选择和自主驾驶策略。该框架通过控制车辆的运动动态来最大化交通流量，最小化碰撞，并增强通信。文章提出了基于深度 Q 网络和双深度 Q 网络的解决方案，并开发了一种新颖的信封 MORL 解决方案，能够处理具有未知偏好的多目标。数值结果验证了该解决方案的有效性，并展示了车辆运动动态、切换和通信数据速率之间的相关性。该策略使自动驾驶车辆能够采用安全驾驶行为，并具有改善的连接性。