机器之心 ·

高效评估多模态预训练对齐质量，中科大提出模态融合率MIR

💡 原文中文，约3800字，阅读约需9分钟。

📝

内容提要

AIxiv专栏报道了一种新指标模态融合率（MIR），用于评估多模态大模型（MLLM）预训练的模态对齐质量，克服了传统方法的不稳定性。研究表明，MIR与下游测试性能正相关，适合用于超参数调整和训练策略选择。

🎯

🔎

模态融合率（MIR）作为新提出的评估指标，能够快速准确地反映多模态大模型的预训练质量。与传统方法相比，MIR不仅计算成本低，而且能有效指导超参数调整和训练策略选择，帮助研究者在多模态模型的开发中做出更明智的决策。

多模态预训练的主要目标是实现不同模态之间的对齐，但现有评估手段往往不稳定且计算复杂。MIR的提出为这一挑战提供了新的解决方案，尤其在大规模数据预训练时，能够更好地评估模型性能，降低了依赖有监督微调的必要性。

研究中提出的可学习模态校准（MoCa）模块，旨在进一步促进跨模态对齐。通过对视觉特征进行可学习的缩放和偏移，MoCa能够有效提升模型在下游测试基准上的表现，显示出其在多模态大模型设计中的潜在价值。

❓

模态融合率（MIR）是一种用于评估多模态大模型预训练模态对齐质量的新指标，能够快速准确地反映模态对齐程度。

MIR克服了传统评估方法的不稳定性，能够在不进行有监督微调的情况下，准确反映预训练质量与下游测试性能的关系。

研究表明，MIR与下游测试性能正相关，能够有效指导超参数调整和训练策略选择。

MIR通过累和大模型逐层的模态域间距离来计算，越低的MIR代表越高的预训练模态对齐质量。

MoCa模块旨在促进跨模态对齐，通过对每层视觉token特征进行可学习的缩放和偏移，增强模型性能。

MIR与下游测试基准性能之间存在正相关，可以直接反映不同训练超参数对预训练质量的影响，帮助实现有效的超参数调整。

🏷️