MM-KWS: 多模态用户定义多语言关键词检测
原文中文,约300字,阅读约需1分钟。发表于: 。提出了 MM-KWS,一种新颖的用户定义关键词识别方法,利用文本和语音模板的多模态注册。通过从文本和语音中提取音素、文本和语音嵌入,将这些嵌入与查询语音嵌入进行比较,以检测目标关键词。为了确保 MM-KWS 在多种语言环境下的适用性,利用了包含多个多语言预训练模型的特征提取器。此外,还整合了高级数据增强工具,以提高 MM-KWS 在区分混淆单词方面的性能。在 LibriPhrase 和...
提出了一种新颖的用户定义关键词识别方法MM-KWS,利用多模态注册的文本和语音模板。通过提取音素、文本和语音嵌入,并与查询语音嵌入进行比较,以检测目标关键词。实验证明,MM-KWS在多种语言环境下适用,并整合了高级数据增强工具,提高了性能。