对比交叉模态模型的语言编码器
原文中文,约300字,阅读约需1分钟。发表于: 。对比交叉模态模型如 CLIP 和 CLAP 对视觉 - 语言(VL)和音频 - 语言(AL)任务有所帮助,本篇研究评估了无监督和监督的句子嵌入训练对语言编码器质量和交叉模态任务性能的影响,发现句子嵌入训练有助于提高对比 VL 模型的性能,但在 AL 预训练中效果较少,可能是由于预训练数据量有限所致。通过对表示空间的分析,句子嵌入训练改善了文本空间的均匀性,但降低了交叉模态对齐性。
本文评估了无监督和监督的句子嵌入训练对语言编码器质量和交叉模态任务性能的影响。研究发现,句子嵌入训练有助于提高对比视觉-语言模型的性能,但在音频-语言预训练中效果较少。句子嵌入训练改善了文本空间的均匀性,但降低了交叉模态对齐性。