机器之心 ·

地平线提出AlphaDrive，首个基于GRPO强化学习和规划推理实现自动驾驶大模型

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

OpenAI 的 AlphaDrive 模型通过强化学习和推理技术，显著提升了自动驾驶的决策规划能力。与传统方法相比，AlphaDrive 提出了四种优化奖励机制，提高了规划准确率和训练效率。实验结果显示，其性能优于现有模型，展现了大模型在自动驾驶领域的应用潜力。

🎯

🔎

AlphaDrive通过引入四种优化的GRPO奖励机制，针对自动驾驶的决策规划任务进行了创新。这些奖励机制不仅提升了规划准确率，还增强了模型的训练效率，显示出在复杂驾驶场景中的应用潜力。

与传统的端到端模型相比，AlphaDrive在处理长尾问题时表现更佳。传统模型往往缺乏推理能力，而AlphaDrive通过强化学习和推理技术的结合，能够更有效地应对复杂的驾驶决策，降低安全隐患。

AlphaDrive的研究为未来自动驾驶技术的发展提供了新的思路。下一步，研究团队计划将其从视觉语言模型（VLM）扩展到视觉语言代理（VLA），以实现更全面的理解、决策和规划能力，推动自动驾驶技术的进步。

❓

AlphaDrive首次将基于GRPO的强化学习和规划推理引入自动驾驶任务，显著提升了模型的规划表现和训练效率。

AlphaDrive通过强化学习和推理技术，提出四种优化奖励机制，提升了规划准确率和训练效率。

实验结果显示，AlphaDrive的规划准确率比SFT训练的模型提升了26%，并且在仅使用1/5的训练数据时，性能高出35%。

AlphaDrive采用基于知识蒸馏的SFT和RL的两阶段推理训练策略，以生成高质量的规划推理数据。

AlphaDrive提出的四种GRPO奖励包括规划准确率奖励、action权重奖励、输出多样性奖励和规划格式奖励，更适合于自动驾驶规划任务。

未来将尝试将AlphaDrive从VLM拓展到VLA，实现统一的理解、决策、规划的自动驾驶大模型。

🏷️