INS-MMBench: 保险领域 LVLMs 性能综合评估的全面基准

BriefGPT - AI 论文速递 ·

通过研究评估作品，发现两个问题：1）视觉内容对于很多样本来说是不必要的；答案可以从问题和选项中推断出来，或者来自于LLM中的世界知识。2）在LLM和LVLM训练中存在数据泄漏。为解决这些问题，提出了MMStar，一个具有6个核心能力和18个详细方向的多模态基准。在MMStar上评估了16个主要的LVLM，并调查了它们的数据泄漏和实际多模态增益。

LVLM MMStar 多模态基准数据泄漏视觉内容

原文中文，约300字，阅读约需1分钟。

阅读原文

分享给好友