BriefGPT - AI 论文速递 ·

通过可控的长视频生成释放自主驾驶的泛化能力

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本文介绍了第一个大规模自动驾驶视频预测模型GenAD，该模型通过网络数据和文本描述提升了泛化能力。在多种行驶场景中，GenAD能够生成长达25分钟的视频，并在多个数据集上取得优异成绩，展示了其在实际应用中的巨大潜力。

🎯

❓

GenAD是第一个大规模自动驾驶视频预测模型，利用网络数据和文本描述提升泛化能力，能够生成长达25分钟的视频。

GenAD采用去噪扩散概率模型的视频建模框架，通过重新设计时域隐变量表示和两阶段训练策略来优化时序一致性。

GenAD展示了在实际行驶应用中的巨大潜力，能够适应动作条件化预测模型或运动规划器。

GenAD的数据集积累了超过2000小时的行驶视频，涵盖了全球各地不同的气候条件和交通场景，从而增强了模型的泛化能力。

GenAD在多个数据集上取得了优异成绩，展示了其在视频预测任务中的有效性。

GenAD能够生成长达25分钟的时间连贯视频。

🏷️