在多语言环境中探索鲁棒的面部 - 声音匹配
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了小飞团队在ACM Multimedia 2024上对多语言环境中的面声关联(FAME)进行探索的创新方法。通过构建双分支结构、动态样本配对加权、健壮数据增强、得分极化策略等四个关键组件,研究了不同语言对面声匹配的影响。方法在V2-EH数据集上取得20.07的等误差率(EER),在V1-EU数据集上取得21.76的EER。
🎯
关键要点
- 小飞团队在ACM Multimedia 2024上探索多语言环境中的面声关联(FAME)
- 研究方法包括双分支结构、动态样本配对加权、健壮数据增强和得分极化策略
- 重点研究不同语言对面声匹配的影响
- 在V2-EH数据集上取得20.07的等误差率(EER)
- 在V1-EU数据集上取得21.76的EER
➡️