对齐之后融合:通过多模态编码器来提高人脸 - 声音相关性学习
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文研究人类面孔与声音之间的关联,通过在线研究证实人们可以将未见过的面孔与对应的声音相关联,并计算建模了面孔和声音之间的重叠信息。该跨模态表示包含足够的信息来识别匹配的面孔和声音,并与人口属性和视听模式获取的特征相关。
🎯
关键要点
- 研究人类面孔与声音之间的关联。
- 通过在线研究证实人们可以将未见过的面孔与对应的声音相关联。
- 计算建模了面孔和声音之间的重叠信息。
- 跨模态表示包含足够的信息来识别匹配的面孔和声音。
- 该表征与某些人口属性和从单一视觉或听觉模式获取的特征相关。
- 发布了音视数据集和人们朗读短文的人口学注释。
➡️