小红花·文摘

本研究探讨了无监督语音识别的预训练方法，通过在大量无标注音频数据上进行特征学习，显著降低了错误率（WER）。研究还提出了改进的 wav2vec-U 2.0 方法和 GraphSpeech 模型，以提升语音识别和文本合成的效果，并使用知识图谱增强对话代理的准确性。

wav2graph：从语音中监督学习知识图谱的框架

BriefGPT - AI 论文速递 ·

本文探讨了多语言预训练模型 wav2vec 2.0 的微调方法，以提升无监督语音识别的音素和单词识别能力。研究表明，通过在 IPA 音素转写上微调，某些语言的单词错误率可低于 20%。此外，KWS-Net 结构在关键词检测上表现优异，且在无音频情况下也能有效工作，展示了无标签语音数据在语音识别中的应用潜力。

零封多语言口语关键词识别的通用语言特征建模

BriefGPT - AI 论文速递 ·