Robusto-1 Dataset: Comparing Human and Visual Language Model Performance in Real-World Out-of-Distribution Autonomous Driving in Peru

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究探讨多模态基础模型在自主驾驶中的响应能力,特别是在分布外情境下的表现。通过Robusto-1数据集,发现人类与视觉语言模型在认知层面上的一致性与差异性与提问类型密切相关。

🎯

关键要点

  • 本研究探讨多模态基础模型在自主驾驶中的响应能力。
  • 研究重点在分布外情境下的表现,填补了相关研究空白。
  • 提出了Robusto-1数据集,利用秘鲁的行车记录视频进行比较。
  • 通过多模态视觉问答方法,发现人类与视觉语言模型在认知层面上的一致性与差异性。
  • 认知一致性与差异性显著取决于提问的类型,揭示了两者认知对齐的差距。
➡️

继续阅读