BLINK:多模态大型语言模型具备视觉但无感知能力
原文约500字/词,阅读约需2分钟。发表于: 。Blink 是一个针对多模式语言模型(LLMs)的新基准,重点关注其他评估中找不到的核心视觉感知能力。通过对 14 个经典的计算机视觉任务进行改组,Blink 生成了 3,807 个多项选择题,配备单个或多个图像和视觉提示。虽然人类平均准确率为 95.70%,但 Blink 对现有的多模式 LLMs 具有意外的挑战性,即使是表现最佳的 GPT-4V 和 Gemini 准确率也只有...
Blink是一个新的多模式语言模型(LLMs)基准,通过对14个计算机视觉任务进行改组,生成了3807个多项选择题。结果显示,现有的多模式LLMs在核心视觉感知能力上仍有挑战,最佳模型的准确率仅为51.26%和45.72%。专家级计算机视觉模型在解决这些问题方面表现更好。Blink将激发社区努力,帮助多模式LLMs赶上人类水平的视觉感知。