通过模态集成率解码大型视觉语言模型中的跨模态对齐
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对大型视觉语言模型(LVLMs)在多模态预训练阶段缺乏有效评估指标的问题,提出了模态集成率(MIR)这一新颖的衡量标准。MIR有效、稳健且具有广泛适用性,能够准确反映预训练质量,并对后续的模型表现有积极影响。实验结果表明,MIR不仅可以优化训练数据选择和策略,还能为未来跨模态对齐的研究提供指导。
研究表明,许多视觉内容是多余的,答案可以通过问题、选项或LLM的知识推断得出。此外,LLM和LVLM训练中存在数据泄漏问题。为此,提出了MMStar多模态基准,具备6个核心能力和18个方向。研究在MMStar上评估了16个LVLM,分析其多模态能力及数据泄漏问题。