MVP-Bench:大型视觉-语言模型能否像人类一样进行多层次视觉感知?
原文中文,约300字,阅读约需1分钟。发表于: 。本研究探讨了大型视觉-语言模型(LVLMs)在多层次视觉感知方面与人类之间的差距,填补了这一领域的空白。通过引入MVP-Bench基准,系统评估LVLMs在低层次与高层次视觉感知的能力,发现目前的LVLMs在高层次感知任务上表现不佳,尤其是在处理合成图像时。该研究的成果为改善视觉-语言模型的性能提供了重要指导。
研究表明,许多视觉内容是多余的,答案可以从问题和选项或LLM的知识中推断。LLM和LVLM训练中存在数据泄漏问题。为此,提出了MMStar基准,涵盖6个核心能力和18个方向,并在此基准上评估了16个LVLM,分析其多模态能力及数据泄漏和实际增益。