INS-MMBench: 保险领域 LVLMs 性能综合评估的全面基准
原文中文,约300字,阅读约需1分钟。发表于: 。本研究系统评估和总结了 LVLMs 在保险领域中的多模态任务,并提出了 INS-MMBench 作为第一个专门为保险领域量身定制的全面 benchmark,该评估不仅验证了我们的 benchmark 的有效性,还对当前 LVLMs 在保险领域的各种多模态任务中进行了深入的性能分析。
通过研究评估作品,发现两个问题:1)视觉内容对于很多样本来说是不必要的;答案可以从问题和选项中推断出来,或者来自于LLM中的世界知识。2)在LLM和LVLM训练中存在数据泄漏。为解决这些问题,提出了MMStar,一个具有6个核心能力和18个详细方向的多模态基准。在MMStar上评估了16个主要的LVLM,并调查了它们的数据泄漏和实际多模态增益。