小红花·文摘

本研究探讨了多模态模型在对齐方面的局限性，提出了一种新颖的Gramian表征对齐度量（GRAM），并证明其在高维空间中有效对齐多个模态，显著提升了视频-音频-文本检索和音频-视频分类等任务的表现。