Apple Machine Learning Research ·

自我对弈产生鲁棒的自主驾驶

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

自我对弈在两人和多人游戏中取得突破，现证明其在驾驶模拟中同样有效。通过GigaFlow模拟器进行16亿公里的自我驾驶训练，生成的策略在三项自动驾驶基准测试中表现优异，并在真实场景中超越以往最佳表现，展现出前所未有的鲁棒性。

🎯

🔎

自我对弈在自动驾驶领域的应用展示了其强大的潜力。通过模拟大量驾驶场景，系统能够在没有人类数据的情况下，生成高效的驾驶策略。这种方法不仅提高了训练效率，还能在真实场景中超越以往的最佳表现，显示出自我对弈在复杂环境中的适应能力。

GigaFlow模拟器的设计使得每小时能够合成和训练相当于42年驾驶经验的数据，这一创新显著提升了训练的规模和效率。通过这种高效的模拟，系统能够在短时间内积累丰富的驾驶经验，为自动驾驶技术的发展提供了强有力的支持。

在自动驾驶技术中，鲁棒性是确保安全驾驶的关键因素。该研究表明，经过自我对弈训练的策略在模拟中实现了平均17.5年无事故的表现，这一数据不仅反映了系统的稳定性，也为未来的自动驾驶应用提供了信心，尤其是在复杂和不可预测的交通环境中。

❓

自我对弈在自动驾驶中通过模拟训练生成鲁棒的驾驶策略，展现出优异的性能。

GigaFlow模拟器能够每小时合成和训练42年的驾驶经验，支持大规模自我驾驶训练。

自我对弈训练的规模达到16亿公里的驾驶模拟。

生成的策略在三项自动驾驶基准测试中表现优异，超越以往最佳表现。

该策略在真实场景中超越了以往的最佳表现，展现出前所未有的鲁棒性。

该策略在模拟中平均实现17.5年连续驾驶无事故，展现出极高的鲁棒性。

🏷️