本文提出了一种离线策略梯度方法,通过构建可微分的数据驱动模拟器来学习城市驾驶的模仿策略。通过在100小时的专家演示上进行训练,展示其能够学习出高泛化性能和多种驾驶动作的城市驾驶策略,并且无需进行复杂的状态扰动或采集进一步的在线策略数据而在真实世界中优于现有的最新城市驾驶方案。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: