自动化评估大型视觉语言模型对自动驾驶的极端情况
原文中文,约300字,阅读约需1分钟。发表于: 。提出了 CODA-LM,这是一个用于自动驾驶的新兴视觉 - 语言基准测试,通过利用文本而不使用图像输入,使强大的文本 - 语言模型能够评估 LVLM 在自动驾驶场景中的能力,并揭示了它们与人类偏好的更强的一致性。实验证明,即使是像 GPT-4V 这样的商用 LVLM 也无法很好地处理路上的特殊情况,这表明我们离强大的 LVLM 驱动的智能驾驶代理系统还有很长的路要走,希望 CODA-LM...
研究提出了CODA-LM,一种用于自动驾驶的新型视觉-语言基准测试。CODA-LM通过利用文本评估LVLM在自动驾驶场景中的能力,并揭示了与人类偏好的一致性。实验证明商用LVLM无法处理路上的特殊情况,表明智能驾驶代理系统仍有待改进。希望CODA-LM推动未来发展。