本文介绍了小飞团队在ACM Multimedia 2024上对多语言环境中的面声关联(FAME)进行探索的创新方法。通过构建双分支结构、动态样本配对加权、健壮数据增强、得分极化策略等四个关键组件,研究了不同语言对面声匹配的影响。方法在V2-EH数据集上取得20.07的等误差率(EER),在V1-EU数据集上取得21.76的EER。
该研究使用机器学习将英语翻译成形式化特征语言,并以印地语为示例数据进行训练。结果显示该方法能够灵活地满足不同语言需求和场景。
本文研究人类面孔与声音之间的关联,通过在线研究证实人们可以将未见过的面孔与对应的声音相关联,并计算建模了面孔和声音之间的重叠信息。该跨模态表示包含足够的信息来识别匹配的面孔和声音,并与人口属性和视听模式获取的特征相关。
该研究通过自动提取常识表示并将其用于实体之间的映射,能够处理部分类比并提出新的实体添加。实验证明,该模型能够正确映射 81.2% 的典型的 2x2 类比问题,在更大的问题上,准确率达到 77.8%。在另一个实验中,该算法优于人类表现,并且自动提出的新实体与人类的建议类似。
CCGraczyk: I WAS LISTENING TO THE RADIO LAST NITE CCGraczyk: ABOUT 11.20PM CCGraczyk: JACK FM CCGraczyk: 104.3 CCGraczyk: ANNOUNCES CCGraczyk: HARPER CCGraczyk: HARPER REED CCGraczyk: WITH VOX...
完成下面两步后,将自动完成登录并继续当前操作。