本研究通过随机化奖励函数训练多样化的社交车辆驾驶策略,并提出增强自车驾驶策略鲁棒性的训练策略。该方法成功学习到了在挑战性的交叉口情景中对具有分布之外行为的社交车辆具有泛化性的自车驾驶策略。
完成下面两步后,将自动完成登录并继续当前操作。