句级多模态和语言无关的表示
原文中文,约400字,阅读约需1分钟。发表于: 。我们引入了 SONAR,一个新的多语言和多模态的固定大小句子嵌入空间,在 xsim 和 xsim++ 多语言相似性搜索任务中,我们的单一文本编码器涵盖 200 种语言,表现明显优于现有的句子嵌入如 LASER3 和 LabSE。我们还提供了一个文本解码器,涵盖 200...
本文介绍了SONAR,一个新的多语言和多模态的句子嵌入空间,提出的单一文本编码器在200种语言上的表现优于现有的句子嵌入方法。文中还提供了一个文本解码器,可以执行文本到文本和语音到文本的机器翻译,包括零射语言和模态组合。尽管使用了固定大小的瓶颈表示,该文的文本到文本结果与最先进的模型相媲美,零射语音到文本翻译结果也表现出色。