基于变分量子电路的强化学习的车载网络优化
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
该文章介绍了一种新的多目标强化学习框架,用于优化无线网络选择和自主驾驶策略。该框架通过控制车辆的运动动态来最大化交通流量,最小化碰撞,并增强通信。文章提出了基于深度 Q 网络和双深度 Q 网络的解决方案,并开发了一种新颖的信封 MORL 解决方案,能够处理具有未知偏好的多目标。数值结果验证了该解决方案的有效性,并展示了车辆运动动态、切换和通信数据速率之间的相关性。该策略使自动驾驶车辆能够采用安全驾驶行为,并具有改善的连接性。
🎯
关键要点
- 开发了一种新的多目标强化学习(MORL)框架,用于优化无线网络选择和自主驾驶策略。
- 框架通过控制车辆的运动动态来最大化交通流量,最小化碰撞,并增强通信。
- 将问题视为多目标马尔科夫决策过程(MOMDP),并为冲突目标的预设和未知偏好开发解决方案。
- 开发了基于深度 Q 网络和双深度 Q 网络的解决方案,使用预设偏好对运输和通信奖励进行标量化处理。
- 提出了一种新颖的信封 MORL 解决方案,能够处理具有未知偏好的多目标。
- 应用广义版本的贝尔曼方程,优化多目标 Q 值的凸包以学习统一的参数表示。
- 代理器可以根据任何指定的偏好执行最优策略,或从最少的数据样本中推断出偏好。
- 数值结果验证了信封 MORL 解决方案的有效性,并展示了车辆运动动态、切换和通信数据速率之间的相关性。
- 所提出的策略使自动驾驶车辆能够采用安全驾驶行为,并改善连接性。
➡️