本研究分析多模态基础模型的内部表示,识别文本与语音的语义等效句子,提出克服高资源语言局限性的见解,发现跨模态表示逐渐融合,长度适配对缩小差距至关重要,推动低资源语言的发展。
本文研究人类面孔与声音之间的关联,通过在线研究证实人们可以将未见过的面孔与对应的声音相关联,并计算建模了面孔和声音之间的重叠信息。该跨模态表示包含足够的信息来识别匹配的面孔和声音,并与人口属性和视听模式获取的特征相关。
完成下面两步后,将自动完成登录并继续当前操作。