小红花·文摘

Blink是一个新的多模式语言模型（LLMs）基准，通过对14个计算机视觉任务进行改组，生成了3807个多项选择题。结果显示，现有的多模式LLMs在核心视觉感知能力上仍有挑战，最佳模型的准确率仅为51.26%和45.72%。专家级计算机视觉模型在解决这些问题方面表现更好。Blink将激发社区努力，帮助多模式LLMs赶上人类水平的视觉感知。