本文介绍了小飞团队在ACM Multimedia 2024上对多语言环境中的面声关联(FAME)进行探索的创新方法。通过构建双分支结构、动态样本配对加权、健壮数据增强、得分极化策略等四个关键组件,研究了不同语言对面声匹配的影响。方法在V2-EH数据集上取得20.07的等误差率(EER),在V1-EU数据集上取得21.76的EER。
完成下面两步后,将自动完成登录并继续当前操作。