扩展多模态对比表示
原文中文,约400字,阅读约需1分钟。发表于: 。本文介绍了一种用于多模态学习的训练高效且无需成对数据的方法,名为 Ex-MCR。通过整合现有多模态对比表示空间的知识,Ex-MCR 将多个现有对比表示空间对齐到基于对比表示空间,有效保留了基于对比表示空间的原始语义对齐。通过从训练数据、架构和学习目标的角度全面增强对比表示空间的对齐,Ex-MCR 展示了卓越的表示学习性能和出色的模态扩展性。通过将 CLAP(音频 - 文本)和...
Ex-MCR是一种用于多模态学习的方法,无需成对数据即可高效训练。该方法整合了现有多模态对比表示空间的知识,将多个现有对比表示空间对齐到基于对比表示空间,展示了卓越的表示学习性能和出色的模态扩展性。在音频-视觉、3D-图像、音频-文本、视觉-文本检索和3D物体分类任务上展示了最先进的性能。