幻觉VQA:基准测试与增强多模态模型在视觉幻觉上的表现
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
Blink是一个新基准,用于评估多模式语言模型的视觉感知能力。通过14个计算机视觉任务生成3,807个多项选择题,结果显示人类准确率为95.70%,而GPT-4V和Gemini的准确率仅为51.26%和45.72%。这表明当前多模式LLMs在视觉感知方面仍需改进。
🎯
关键要点
- Blink是一个新基准,评估多模式语言模型的视觉感知能力。
- 通过14个计算机视觉任务生成3,807个多项选择题。
- 人类平均准确率为95.70%,而GPT-4V和Gemini的准确率分别为51.26%和45.72%。
- 当前多模式LLMs在视觉感知方面仍需改进,表现仅比随机猜测高出13.17%和7.63%。
- 专家级计算机视觉模型在解决这些问题方面表现更好,提供了改进的潜在途径。
- Blink旨在激发社区努力,帮助多模式LLMs达到人类水平的视觉感知。
➡️