BLINK:多模态大型语言模型具备视觉但无感知能力

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

Blink是一个新的多模式语言模型(LLMs)基准,通过对14个计算机视觉任务进行改组,生成了3807个多项选择题。结果显示,现有的多模式LLMs在核心视觉感知能力上仍有挑战,最佳模型的准确率仅为51.26%和45.72%。专家级计算机视觉模型在解决这些问题方面表现更好。Blink将激发社区努力,帮助多模式LLMs赶上人类水平的视觉感知。

🎯

关键要点

  • Blink是一个新的多模式语言模型(LLMs)基准,专注于核心视觉感知能力。
  • 通过对14个经典计算机视觉任务进行改组,Blink生成了3807个多项选择题。
  • 人类在这些任务上的平均准确率为95.70%。
  • 现有的多模式LLMs表现不佳,最佳模型GPT-4V和Gemini的准确率仅为51.26%和45.72%。
  • 这些模型的表现仅比随机猜测高出13.17%和7.63%。
  • 专家级计算机视觉模型在解决这些问题上表现更好,提供了未来改进的潜在途径。
  • Blink将激发社区努力,帮助多模式LLMs赶上人类水平的视觉感知。
➡️

继续阅读