基于 Wav2vec 的言语智能识别与严重程度分类 —— 以口吃为例
原文中文,约300字,阅读约需1分钟。发表于: 。通过使用预训练的 wav2vec 2.0 模型作为特征提取器,本研究对发音困难症的声学语音信号进行了自动检测和严重程度分类,结果表明使用 wav2vec 模型的第一层嵌入特征在准确度上相较于基线特征(声谱图)提升了 1.23%,在严重程度分类任务中最终层的嵌入特征相较于基线特征(梅尔频率倒谱系数)提升了 10.62%。
本研究使用wav2vec 2.0模型对发音困难症声学语音信号进行自动检测和严重程度分类,结果表明使用wav2vec模型的嵌入特征在准确度和严重程度分类任务中均有提升。