机器之心 ·

ICRA 2025｜清华x光轮：自驾世界模型生成和理解事故场景

💡 原文中文，约3000字，阅读约需8分钟。

📝

内容提要

AIxiv专栏促进学术交流，报道2000多篇自动驾驶技术文章。光轮智能与多所高校合作提出AVD2框架，通过生成事故视频和自然语言描述，提升自动驾驶系统对事故场景的理解与预防能力，提供高质量数据，助力安全技术落地。

🎯

🔎

尽管自动驾驶技术在全球范围内快速发展，但在复杂交通环境中，理解和预防事故依然是重大挑战。特别是在中国市场，自动驾驶系统需要适应不同的交通规则和驾驶习惯，这为技术的本地化和优化提出了更高要求。

AVD2框架通过生成事故视频和自然语言描述，提升了自动驾驶系统对事故场景的理解能力。这种结合视频生成与事故分析的多任务学习方法，不仅提高了事故原因的解释能力，还为未来的事故预防提供了重要的数据支持。

EMM-AU数据集的贡献对于推动事故分析和预防研究至关重要。高质量的数据集能够帮助研究人员更好地训练和评估自动驾驶系统，从而提升其在真实场景中的表现和安全性。

❓

AVD2框架主要用于生成事故视频和自然语言描述，以提升自动驾驶系统对事故场景的理解与预防能力。

AVD2框架通过使用Open-Sora 1.2模型进行两阶段微调，生成与事故描述一致的高质量交通事故视频。

AVD2结合了视频理解与自然语言处理技术，生成车辆行为描述和事故原因解释。

多任务学习方法使AVD2能够联合训练行为描述和事故原因理解任务，提高了整体性能和任务之间的关联性。

AVD2在评估中优于现有的先进方法，尤其在CIDEr指标上表现突出。

未来团队计划进一步优化AVD2框架，并推动其在自动驾驶技术中的安全应用。

🏷️