该文章介绍了一种新的多目标强化学习框架,用于优化无线网络选择和自主驾驶策略。该框架通过控制车辆的运动动态来最大化交通流量,最小化碰撞,并增强通信。文章提出了基于深度 Q 网络和双深度 Q 网络的解决方案,并开发了一种新颖的信封 MORL 解决方案,能够处理具有未知偏好的多目标。数值结果验证了该解决方案的有效性,并展示了车辆运动动态、切换和通信数据速率之间的相关性。该策略使自动驾驶车辆能够采用安全驾驶行为,并具有改善的连接性。
完成下面两步后,将自动完成登录并继续当前操作。