利用 Whisper 增强 Hearing Aids 的多分支语音可懂度预测模型
原文中文,约300字,阅读约需1分钟。发表于: 。自动评估助听器设备中的语音可懂性非常重要。本文在以往研究基础上,提出了两种改进的模型 MBI-Net + 和 MBI-Net++,通过利用 Whisper 嵌入来增强声学特征,从而进一步提高 MBI-Net 模型的性能。实验结果表明,MBI-Net++ 和 MBI-Net + 在多项指标上均较 MBI-Net 具有更好的预测性能,而 MBI-Net++ 优于 MBI-Net+。
本研究使用Whisper自动语音识别模型,以语音为基础的上下文学习方法,显著减少两种方言中的词错误率,平均降低率为32.3%。基于k最近邻的示例选择技术能将平均相对WER减少率提高至36.4%。研究还对发音变化和方言特定的词汇细微差别的适应性进行了详细的定量分析。