MM-KWS: 多模态用户定义多语言关键词检测
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
提出了一种新颖的用户定义关键词识别方法MM-KWS,利用多模态注册的文本和语音模板。通过提取音素、文本和语音嵌入,并与查询语音嵌入进行比较,以检测目标关键词。实验证明,MM-KWS在多种语言环境下适用,并整合了高级数据增强工具,提高了性能。
🎯
关键要点
- 提出了一种新颖的用户定义关键词识别方法MM-KWS。
- MM-KWS利用文本和语音模板的多模态注册。
- 通过提取音素、文本和语音嵌入,与查询语音嵌入进行比较,以检测目标关键词。
- MM-KWS在多种语言环境下适用,使用了多个多语言预训练模型的特征提取器。
- 整合了高级数据增强工具,提高了区分混淆单词的性能。
- 在LibriPhrase和WenetPhrase数据集上的实验证明,MM-KWS明显优于之前的方法。
➡️