MM-KWS: 多模态用户定义多语言关键词检测

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

提出了一种新颖的用户定义关键词识别方法MM-KWS,利用多模态注册的文本和语音模板。通过提取音素、文本和语音嵌入,并与查询语音嵌入进行比较,以检测目标关键词。实验证明,MM-KWS在多种语言环境下适用,并整合了高级数据增强工具,提高了性能。

🎯

关键要点

  • 提出了一种新颖的用户定义关键词识别方法MM-KWS。
  • MM-KWS利用文本和语音模板的多模态注册。
  • 通过提取音素、文本和语音嵌入,与查询语音嵌入进行比较,以检测目标关键词。
  • MM-KWS在多种语言环境下适用,使用了多个多语言预训练模型的特征提取器。
  • 整合了高级数据增强工具,提高了区分混淆单词的性能。
  • 在LibriPhrase和WenetPhrase数据集上的实验证明,MM-KWS明显优于之前的方法。
➡️

继续阅读