该研究提出了一种基于谷歌健康声学模型的人工智能诊断管道,利用儿童呼吸声音数据进行哮喘早期检测,准确率超过91%,适用于资源匮乏的医疗环境。
本研究提出了一种新方法,解决低资源语言在语音合成中的数据不足和复杂性问题。该方法结合数据优化框架和先进声学模型,支持零样本语音克隆,提升了在金融、医疗等领域的应用表现。
本文提出了一种双层联合无监督与监督训练(BL-JUST)框架,旨在改进传统的预训练与微调策略。该方法通过同时最小化无监督与监督的损失函数,提升声学模型的通用性和任务特定性。研究表明,BL-JUST在多个数据集和架构下表现优于传统策略和半监督技术。
本文探讨了利用单一声学模型进行多语言训练,以提升低资源语言的自动语音识别(ASR)性能。研究表明,多语言训练的ASR模型在51种语言上优于单语言训练,尤其在低资源语言方面。提出的多种模型和方法,如METHODNS和MC-SA-ASR,显著提高了多语言和低资源语音识别的效果。此外,研究介绍了MSR-86K语料库,为多语言ASR研究提供了新的数据支持。
本文探讨了语音识别中声学模型与语言模型的融合方法,包括浅层融合、语言模型重评分、密度比和内部语言模型估计等。这些融合策略能够提高识别精度并降低计算开销。
本研究针对自动语音识别中的隐私和数据量问题,提出通过基因合并和SGD优化训练多个模型的新方法,提高声学模型的效率和准确性。实验结果显示,该方法优于现有技术,并利用Shapley值评估模型贡献,帮助评估数据有效性。
本文探讨了自监督学习在语音处理中的应用,包括利用外部词嵌入改善声学模型、提出新型掩蔽方法提升语音识别性能,以及开发多模态语言模型进行域泛化。这些方法在不同任务上显著提升了性能,尤其在词错误率方面表现突出。
研究表明,在低资源环境下,通过字符级到单词级的转化可以显著提升语音翻译的速度和准确性。使用预训练的声学模型和数据增强技术,有效提高了自动语音翻译的质量。新提出的基于课程学习和互连机制的方法进一步优化了语音特征提取和翻译性能,实验结果显示BLEU分数显著提升。
本文探讨了利用单一声学模型进行多语言训练,以提升低资源语言的自动语音识别(ASR)性能。研究表明,多语言训练的ASR模型在51种语言上优于单语言训练,尤其对低资源语言效果显著。该研究为语音识别和翻译等应用提供了新的可能性。
本文介绍了多种基于深度学习的语音增强方法,如Deep Complex U-Net、递归变分自编码器和实时语音增强模型。这些方法在不同数据库上测试,均显示出在降噪和背景噪音处理方面的性能提升。此外,通用降噪框架D4AM有效改善了声学模型的性能,降低了错误率。
该论文提出了多种自然语言处理和语音识别的研究成果,包括MAD基准测试、荷兰方言发音差异识别、跨方言英语语音识别和自然语言生成多样性评估。研究表明,基于声学模型的方法优于传统方法,并提出了多模态方法以提升音频内容审核性能。
本文评估了六种语音识别器的性能,发现本地识别器更快且更新次数少。Meta的Wav2Vec模型速度最快,Mozilla的DeepSpeech模型表现稳定。研究还探讨了大型语言模型用户界面如何提升运动受限用户的文本输入速度,以及LTU-AS模型在语音识别中的应用。实验结果显示,优化的声学模型在口述历史采访中的错误率为15.6%和23.9%。
通过研究神经网络的层级表达,发现声学模型的不同层次对音素识别有影响。低层隐藏层有助于信息结构,而上层更倾向于删除无用信息。
本研究提出了通用降噪框架D4AM,用于改善嘈杂环境下声学模型性能。该框架通过反向梯度调整语音增强模型,考虑回归目标作为辅助损失,直接估计权重系数,避免额外训练成本。实验结果显示,相对于嘈杂输入,该框架在Google ASR API上相对WER降低24.65%,是首个实现回归和分类目标有效组合的通用预处理器。
完成下面两步后,将自动完成登录并继续当前操作。