Blink是一个新的多模式语言模型(LLMs)基准,通过对14个计算机视觉任务进行改组,生成了3807个多项选择题。结果显示,现有的多模式LLMs在核心视觉感知能力上仍有挑战,最佳模型的准确率仅为51.26%和45.72%。专家级计算机视觉模型在解决这些问题方面表现更好。Blink将激发社区努力,帮助多模式LLMs赶上人类水平的视觉感知。
完成下面两步后,将自动完成登录并继续当前操作。