多视角声谱图变换器用于呼吸音分类

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

研究提出了一种名为MAST的多尺度音频谱变换器,通过分层表示学习提高音频分类效率。在多个数据集上,MAST的准确度比AST提高了22.2%、4.4%和4.7%,同时更高效。

🎯

关键要点

  • 研究提出了一种名为多尺度音频谱变换器(MAST)的方法。
  • MAST 采用分层表示学习来提高音频分类的效率。
  • MAST 在 Kinetics-Sounds、Epic-Kitchens-100 和 VGGSound 数据集上的准确度分别提高了 22.2%、4.4% 和 4.7%。
  • MAST 在没有外部训练数据的情况下,比 AST 更加高效。
➡️

继续阅读