本文研究了超声舌头成像技术在语音产生过程中的应用,探讨了语音分类方法及其对未知讲话者的推广能力。同时评估了多种GCI检测算法的效果,提出了基于Transformer的标志检测解决方案,展示了声门源特征在声音病理学检测中的优势,并引入多模态模型以改进呼吸音分类性能。
本研究探讨了深度学习在帕金森病患者语音分类中的应用,利用预训练模型wav2vec 2.0实现了97.92%的准确率。研究分析了自动语音识别系统的错误对分类精度的影响,并提出了新的声学特征嵌入方法,强调了模型选择和预处理的重要性,为临床诊断提供了有价值的见解。
本文介绍了UniverSLU多任务学习模型,展示了其在语音分类和生成任务中的优越性能。研究探讨了使用自然短语作为提示的可解释性,并提出了一种新型深度RNN架构,提升了语义理解效果。此外,研究还涉及神经网络的压缩方法和多领域适应能力,证明了其在低资源环境下的有效性。
本文介绍了一种使用深度卷积神经网络作为结构变分近似的推理网络的无监督模型ConvDMM,它使用非线性发射和转移函数模型的高斯状态空间模型。ConvDMM在语音分类和识别方面表现优异,可以与其他自我监督的方法相辅相成,特别适用于少量标记训练示例的极低资源情况。
完成下面两步后,将自动完成登录并继续当前操作。