针对声带功能障碍患者的语音质量评估方法的开发,采用包含多特征的自动语音识别表示

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

本研究使用深度学习模型评估音频分类,比较了不同模型的性能,并强调了预训练的优势。研究发现,在小数据集背景下,CNN模型可以达到或超过Transformer模型的性能,对临床诊断有价值。

🎯

关键要点

  • 本研究使用深度学习模型评估音频分类。
  • 分析了包括DenseNet和ConvNeXt在内的CNN模型,以及ViT、SWIN和AST等Transformer模型。
  • 比较了预训练的音频模型(如YAMNet和VGGish)与其他模型的性能。
  • 强调了在特定临床数据上微调之前进行大数据集预训练的好处。
  • 研究了从中风患者收集的两个音频数据集。
  • 发现RGB和灰度频谱图变换对模型性能的影响与预训练知识相关。
  • 在小数据集背景下,CNN模型的性能可以达到或超过Transformer模型。
  • DenseNet-Contrastive和AST模型显示出显著的性能。
  • 研究突出了模型选择、预训练和预处理在音频分类中的重要性。
  • 为依赖音频分类的临床诊断提供了有价值的见解。
➡️

继续阅读