BriefGPT - AI 论文速递 ·

多模态喉镜视频分析用于辅助诊断声带麻痹

💡 原文中文，约1100字，阅读约需3分钟。

📝

内容提要

本文研究了超声舌头成像技术在语音产生过程中的应用，探讨了语音分类方法及其对未知讲话者的推广能力。同时评估了多种GCI检测算法的效果，提出了基于Transformer的标志检测解决方案，展示了声门源特征在声音病理学检测中的优势，并引入多模态模型以改进呼吸音分类性能。

🎯

关键要点

研究使用超声舌头成像技术可视化语音产生过程，并探讨语音分类方法。
提供最少的额外讲话者信息有助于模型推广到未知讲话者。
评估五种GCI检测算法，HEP、ZFR、DYPSA、SEDREAMS和YAGA在干净语音上表现最佳。
提出基于Transformer的标志检测解决方案，检测机器辅助气道插管中的标志，准确性竞争力强。
结合颈部表面加速计信号进行声音质量分类，显示更好的分类准确率。
介绍一个新数据库，记录声音与口腔运动数据，能够可视化舌头轮廓。
声门源特征在声音病理学检测中表现优于传统特征，结合使用时效果最佳。
实现对语音运动异常的检测，提高语音质量评估和治疗策略的发展。
引入文本-音频多模态模型改进呼吸音分类性能，适应部分元数据缺失的情况。
提出3D-LSPTM框架，提高喉癌检测的准确性和效率，F_1得分达到94.8%。

❓

延伸问答

超声舌头成像技术在语音产生中有什么应用？

超声舌头成像技术用于可视化语音产生过程，并探讨语音分类方法。

哪些GCI检测算法在干净语音上表现最佳？

HEP、ZFR、DYPSA、SEDREAMS和YAGA在干净语音上表现最佳。

声门源特征在声音病理学检测中有什么优势？

声门源特征在声音病理学检测中表现优于传统特征，结合使用时效果最佳。

如何提高呼吸音分类的性能？

引入文本-音频多模态模型可以改进呼吸音分类性能，适应部分元数据缺失的情况。

3D-LSPTM框架在喉癌检测中有什么效果？

3D-LSPTM框架在喉癌检测中显示出94.8%的F_1得分，显著提高了检测准确性和效率。

如何实现对语音运动异常的检测？

通过使用仅对健康人群进行训练的深度跨模态翻译器，可以实现对语音运动异常及其对应声学的检测。

🏷️

标签

GCI检测 Transformer 多模态模型语音分类超声舌头成像

➡️

继续阅读

nanocosmos 发布了首个来自实时视频部署的商业化 MOQ 性能数据
德国nanocosmos公司发布了全球首个基于QUIC的Media over QUIC (MOQ)传输性能数据集，数据来源于六大洲用户的真实使用情况。测试...
voyage-context-4: stop worrying about chunking with our best-performing model
TL;DR – voyage-context-4 is our next-generation contextualized chunk embeddin...
轻量化进度管控利器，码道 + AI Shell打造纯前端拖拽任务看板上线部署
依托华为云码道（CodeArts）代码智能体和通过华为云AI Shell快速生成与部署 Vue3 + Vite + localStorage 搭建纯前端任...
在更多内部机密数据被泄露后苹果对印度塔塔集团数据泄露事件表示担忧
#科技资讯在更多内部机密数据被泄露后，苹果对印度塔塔集团数据泄露事件表示担忧，但没有给出其他任何回应。早前在印度帮助苹果组装的 iPhone 的塔塔电子...
低能量者补充卵磷脂：这种脂肪分子能重返线粒体年轻态
细胞能量工厂线粒体会随年龄增长而衰退，但德国科学家发现一种叫磷脂酰胆碱（卵磷脂）的脂肪分子会随年龄减少。通过给虫子和人补充这种物质，线粒体竟然恢复了年轻状...
Dario Amodei：AI 开源是伪命题
下面是 Anthropic 公司创始人 Dario Amodei 的言论。...