小红花·文摘

DiceHuBERT：基于自监督学习目标的HuBERT知识蒸馏

Apple Machine Learning Research ·

本研究提出了一种自监督模型，优化WavLM以提升法语儿童语音的音素识别能力。结果表明，该模型在多任务和噪声环境下表现出更强的鲁棒性，推动了儿童语音识别技术的发展。

Application of Self-Supervised Models in Children's Speech Recognition: A Study on Reading Learning

BriefGPT - AI 论文速递 ·

本文探讨了多语言预训练模型 wav2vec 2.0 的微调方法，以提升无监督语音识别的音素和单词识别能力。研究表明，通过在 IPA 音素转写上微调，某些语言的单词错误率可低于 20%。此外，KWS-Net 结构在关键词检测上表现优异，且在无音频情况下也能有效工作，展示了无标签语音数据在语音识别中的应用潜力。

零封多语言口语关键词识别的通用语言特征建模

BriefGPT - AI 论文速递 ·

通过研究神经网络的层级表达，发现声学模型的不同层次对音素识别有影响。低层隐藏层有助于信息结构，而上层更倾向于删除无用信息。

探究神经网络语音模型中自动语音识别系统所编码的信息

BriefGPT - AI 论文速递 ·