本文探讨了语音质量模型在非典型语音和语音调制中的应用,评估了可懂度、自然度等七个维度。研究利用公共语音可及性项目的数据集,验证了模型在不同语言和任务上的性能,特别对面临失语风险的人群(如ALS患者)具有重要意义。
本研究强调云端语音助手中语音匿名化的重要性,提出了一种基于人类听觉系统的感知驱动损失函数。使用该函数的VQVAE模型在自然性、可懂度和韵律上优于传统模型,同时保持说话者匿名性,并在多种数据集、语言和性别中表现良好。
本文提出了一种基于LSTM网络的端到端视觉语音识别系统,取得了最先进的分类性能。在OuluVS2数据库上比基准提高了9.7%,在CUAVE数据库上比其他类似方法的系统提高了1.5%。
本研究使用神经网络和自监督、弱监督模型的中间层特征表示,结合人类记忆的心理模型,预测助听器用户的可懂度评级,并在不同任务和训练数据中取得了显着性能提升。
本文研究了对RNN的训练的多个方面,关注增强语音频谱的RNN,提出了两种学习目标,并通过客观质量和可懂度指标进行评估。研究了特征归一化和批次序列长度对增强语音质量的影响,并展示了所提出方法和最先进的实时RNN方法的主观评分。
本研究使用Whisper自动语音识别模型,以语音为基础的上下文学习方法,显著减少两种方言中的词错误率,平均降低率为32.3%。基于k最近邻的示例选择技术能将平均相对WER减少率提高至36.4%。研究还对发音变化和方言特定的词汇细微差别的适应性进行了详细的定量分析。
完成下面两步后,将自动完成登录并继续当前操作。