该研究提出了一种基于谷歌健康声学模型的人工智能诊断管道,利用儿童呼吸声音数据进行哮喘早期检测,准确率超过91%,适用于资源匮乏的医疗环境。
本研究提出了一种新方法,解决低资源语言在语音合成中的数据不足和复杂性问题。该方法结合数据优化框架和先进声学模型,支持零样本语音克隆,提升了在金融、医疗等领域的应用表现。
本文提出了一种双层联合无监督与监督训练(BL-JUST)框架,旨在改进传统的预训练与微调策略。该方法通过同时最小化无监督与监督的损失函数,提升声学模型的通用性和任务特定性。研究表明,BL-JUST在多个数据集和架构下表现优于传统策略和半监督技术。
本文探讨了利用单一声学模型进行多语言训练,以提升低资源语言的自动语音识别(ASR)性能。研究表明,多语言训练的ASR模型在51种语言上优于单语言训练,尤其在低资源语言方面。提出的多种模型和方法,如METHODNS和MC-SA-ASR,显著提高了多语言和低资源语音识别的效果。此外,研究介绍了MSR-86K语料库,为多语言ASR研究提供了新的数据支持。
本文探讨了语音识别中声学模型与语言模型的融合方法,包括浅层融合、语言模型重评分、密度比和内部语言模型估计等。这些融合策略能够提高识别精度并降低计算开销。
本研究针对自动语音识别中的隐私和数据量问题,提出通过基因合并和SGD优化训练多个模型的新方法,提高声学模型的效率和准确性。实验结果显示,该方法优于现有技术,并利用Shapley值评估模型贡献,帮助评估数据有效性。
本文研究通过单一声学模型进行多语言训练,以提升低资源语言的语音识别性能。在51种语言的测试中,多语言模型比单语言模型更有效,特别是对低资源语言,识别错误率平均减少20.9%至28.8%。这是首次在超过50种语言和16,000小时语音上进行的大规模研究。
本文探讨了使用单一声学模型进行多语言训练来提升低资源语言语音识别的效果。研究在51种语言上测试,结果表明多语言模型比单语言模型更有效,尤其对低资源语言,平均WER减少20.9%至28.8%。这是首次对超过50种语言的大规模多语言ASR研究。
本研究提出了DEX-TTS,一种基于扩散的表达性语音合成方法,用于增强语音合成的风格表达能力。DEX-TTS在英语多说话人和情感多说话人数据集上表现出色。
本文提出了一种基于罗马拼音和在1,078种不同语言上训练的声学模型的MMS Zero-shot方法。相较最佳先前方法,MMS Zero-shot将平均字符错误率降低了46%,而我们的方法在评估语言中没有使用任何标记数据,仅有2.5倍的领域内监督基线方法的错误率。
通过研究神经网络的层级表达,发现声学模型的不同层次对音素识别有影响。低层隐藏层有助于信息结构,而上层更倾向于删除无用信息。
本研究提出了通用降噪框架D4AM,用于改善嘈杂环境下声学模型性能。该框架通过反向梯度调整语音增强模型,考虑回归目标作为辅助损失,直接估计权重系数,避免额外训练成本。实验结果显示,相对于嘈杂输入,该框架在Google ASR API上相对WER降低24.65%,是首个实现回归和分类目标有效组合的通用预处理器。
完成下面两步后,将自动完成登录并继续当前操作。