音频分类中最佳时间支持的选择与预训练嵌入

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了一种在移动设备上部署的自监督学习模型,用于学习通用音频表示。该模型利用频谱图域中的时间上下文,通过估计音频片段之间的时间间隔或重建时间频谱图切片来学习。研究表明,这种模型可以在多个下游任务中重复使用,并且与全监督模型的性能接近。

🎯

关键要点

  • 本文介绍了一种在移动设备上部署的自监督学习模型,用于学习通用音频表示。
  • 模型利用频谱图域中的时间上下文来学习音频表示。
  • 一种方法估计同一音频剪辑中随机提取的两个短音频片段之间的时间间隔。
  • 其他两种方法受 Word2Vec 启发,重建时间频谱图切片。
  • 研究关注小型编码器体系结构,适合在移动设备上运行。
  • 自我监督学习模型的嵌入质量良好,可以在多个下游任务中重复使用。
  • 模型在某些任务上的性能接近全监督模型。
➡️

继续阅读