幻觉VQA:基准测试与增强多模态模型在视觉幻觉上的表现

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

Blink是一个新基准,用于评估多模式语言模型的视觉感知能力。通过14个计算机视觉任务生成3,807个多项选择题,结果显示人类准确率为95.70%,而GPT-4V和Gemini的准确率仅为51.26%和45.72%。这表明当前多模式LLMs在视觉感知方面仍需改进。

🎯

关键要点

  • Blink是一个新基准,评估多模式语言模型的视觉感知能力。
  • 通过14个计算机视觉任务生成3,807个多项选择题。
  • 人类平均准确率为95.70%,而GPT-4V和Gemini的准确率分别为51.26%和45.72%。
  • 当前多模式LLMs在视觉感知方面仍需改进,表现仅比随机猜测高出13.17%和7.63%。
  • 专家级计算机视觉模型在解决这些问题方面表现更好,提供了改进的潜在途径。
  • Blink旨在激发社区努力,帮助多模式LLMs达到人类水平的视觉感知。
➡️

继续阅读