神经语音模型中的人类语言偏置: Wav2Vec2.0 中的音位分类和音律限制
原文中文,约400字,阅读约需1分钟。发表于: 。探讨深度神经语音模型对语音学的了解,研究 Wav2Vec2 模型在解决音位法约束方面的交互作用,发现模型对有歧义的声音表现出对语音音位学上可接受的类别的偏好,并通过控制的刺激设计来定位模型中具体的语言知识。
该研究提出了一种轻量级字符表示的方法,用于编码精细的发音特征并执行情境偏倚。实验结果显示,该方法相对于基线模型在不同情境偏见列表大小上提高了4.62%-9.26%的识别准确率。在大规模数据集上,相对于基准模型,识别准确率提高了7.91%。在稀有单词和尾部话语的测试集上,相对识别准确率的改善更为显著,分别达到了36.80%和23.40%。