多模态喉镜视频分析用于辅助诊断声带麻痹
内容提要
本文研究了超声舌头成像技术在语音产生过程中的应用,探讨了语音分类方法及其对未知讲话者的推广能力。同时评估了多种GCI检测算法的效果,提出了基于Transformer的标志检测解决方案,展示了声门源特征在声音病理学检测中的优势,并引入多模态模型以改进呼吸音分类性能。
关键要点
-
研究使用超声舌头成像技术可视化语音产生过程,并探讨语音分类方法。
-
提供最少的额外讲话者信息有助于模型推广到未知讲话者。
-
评估五种GCI检测算法,HEP、ZFR、DYPSA、SEDREAMS和YAGA在干净语音上表现最佳。
-
提出基于Transformer的标志检测解决方案,检测机器辅助气道插管中的标志,准确性竞争力强。
-
结合颈部表面加速计信号进行声音质量分类,显示更好的分类准确率。
-
介绍一个新数据库,记录声音与口腔运动数据,能够可视化舌头轮廓。
-
声门源特征在声音病理学检测中表现优于传统特征,结合使用时效果最佳。
-
实现对语音运动异常的检测,提高语音质量评估和治疗策略的发展。
-
引入文本-音频多模态模型改进呼吸音分类性能,适应部分元数据缺失的情况。
-
提出3D-LSPTM框架,提高喉癌检测的准确性和效率,F_1得分达到94.8%。
延伸问答
超声舌头成像技术在语音产生中有什么应用?
超声舌头成像技术用于可视化语音产生过程,并探讨语音分类方法。
哪些GCI检测算法在干净语音上表现最佳?
HEP、ZFR、DYPSA、SEDREAMS和YAGA在干净语音上表现最佳。
声门源特征在声音病理学检测中有什么优势?
声门源特征在声音病理学检测中表现优于传统特征,结合使用时效果最佳。
如何提高呼吸音分类的性能?
引入文本-音频多模态模型可以改进呼吸音分类性能,适应部分元数据缺失的情况。
3D-LSPTM框架在喉癌检测中有什么效果?
3D-LSPTM框架在喉癌检测中显示出94.8%的F_1得分,显著提高了检测准确性和效率。
如何实现对语音运动异常的检测?
通过使用仅对健康人群进行训练的深度跨模态翻译器,可以实现对语音运动异常及其对应声学的检测。