在数据稀缺环境中利用 ASR 驱动的 Wav2Vec2 探索病态语音质量评估
📝
内容提要
自动语音质量评估中,由于数据稀缺,大多数研究仅在二元分类等简单任务上取得良好结果。本文提出了一种新的方法,通过采用预训练的 Wav2Vec2 架构作为语音评估中的特征提取器,将学习系统从片段级别提升至音频级别,从而建立了一个新的基准,使得只使用 95 个训练样本可以实现对可懂度和严重程度得分的预测,平均均方误差分别为 0.73 和 1.15。结果表明,基于 ASR 的 Wav2Vec2...
➡️