端到端可微分仿真的自主车辆控制器
原文中文,约200字,阅读约需1分钟。发表于: 。本研究解决了当前自主车辆控制器学习中行为克隆方法的泛化能力差的问题。通过引入可微分仿真与解析策略梯度(APG)方法,论文提出了一种结合环境动态梯度的端到端训练框架,实现了对大型Waymo开放运动数据集的有效控制器训练。研究结果表明,该方法在性能和鲁棒性上显著优于传统方法,能够实现更人性化的驾驶效果。
本文提出了一种离线策略梯度方法,通过构建可微分的数据驱动模拟器来学习城市驾驶的模仿策略。通过在100小时的专家演示上进行训练,展示其能够学习出高泛化性能和多种驾驶动作的城市驾驶策略,并且无需进行复杂的状态扰动或采集进一步的在线策略数据而在真实世界中优于现有的最新城市驾驶方案。