小红花·文摘

本文研究了特权强化学习代理与感知运动代理在城市驾驶中的差异，并提出了逐步发展较不特权代理的解决方案。通过在CARLA模拟环境中的评估，强调了状态表示对自动驾驶的重要性，提出了SUGARL框架，利用内在奖励激励感官策略，解决策略间的相互影响问题。此外，研究了通过知识蒸馏和模仿学习提升机器人驾驶能力的方法，展示了在新环境中快速学习操作的潜力。