小红花·文摘

本文介绍了VIM框架，用于评估多模态大语言模型在视觉指令跟随能力方面的表现。VIM通过将指令嵌入到视觉场景中，挑战了MLLMs。作者应用VIM于基准测试，发现开源的MLLMs与GPT-4V之间存在显著性能差异。作者旨在通过VIM推动该领域的技术进展。

VisLingInstruct: 用自主指令优化提升多模式语言模型中的零样本学习

BriefGPT - AI 论文速递 ·

本文介绍了一个新的框架VISUAL EMBEDDED INSTRUCTION (VIM)，用于评估多模态大语言模型 (MLLMs) 在视觉指令跟随能力方面的表现。通过将指令嵌入到视觉场景中，VIM 对 MLLMs 提出挑战，对指令跟随需要强大的视觉解释能力。作者将 VIM 应用于不同的基准测试，并观察到开源的 MLLMs 与 GPT-4V 之间存在显著的性能差异。作者的目标是通过 VIM 推动该领域的技术进展和发展。

VIM：用于视觉嵌入式指令跟随的多模态大语言模型探测

BriefGPT - AI 论文速递 ·