本文研究了特权强化学习代理与感知运动代理在城市驾驶中的差异,并提出了逐步发展较不特权代理的解决方案。通过在CARLA模拟环境中的评估,强调了状态表示对自动驾驶的重要性,提出了SUGARL框架,利用内在奖励激励感官策略,解决策略间的相互影响问题。此外,研究了通过知识蒸馏和模仿学习提升机器人驾驶能力的方法,展示了在新环境中快速学习操作的潜力。
完成下面两步后,将自动完成登录并继续当前操作。