零封多语言口语关键词识别的通用语言特征建模
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
我们提出了一种新颖的语言通用方法来实现自动口语关键词识别。通过使用Wav2Vec2.0生成语音表示,并通过线性输出层产生属性序列,我们的方法在多语种口语识别任务中表现出可比较的性能。在引入领域对抗训练后,我们的框架在已知语言和零样本语言中的性能都有所提升。
🎯
关键要点
- 提出了一种新颖的语言通用方法来实现自动口语关键词识别。
- 方法基于自我监督预训练模型和通用语音属性(发音方式和发音位置)。
- 使用Wav2Vec2.0生成强大的语音表示,通过线性输出层产生属性序列。
- 在多语言环境中,非可训练的发音模型将属性序列映射为口语关键词。
- 实验证明该方法在已知语言中与基于字符和音素的方法具有可比较的性能。
- 引入领域对抗训练后,框架性能提升,已知语言的相对字错误率减少了13.73%和17.22%。
- 在零样本语言中,字错误率减少了32.14%和19.92%。
➡️