自学习识别器:面向语音基础模型的无监督适应
原文中文,约200字,阅读约需1分钟。发表于: 。我们提出了一个无监督适应框架,Self-TAught Recognizer (STAR),它利用无标签数据增强自动语音识别(ASR)系统在噪声和口音等多样的目标领域中的稳健性。STAR 基于基于 Transformer 相关架构和自回归解码的流行语音基础模型(例如 Whisper,Canary)进行开发。
本文提出了一种统一说话人自适应方法,基于特征适应和模型适应,能够在Librispeech数据集上降低词错误率,并具有低资源适应性能。