由粗到细:音频谱图变压器的高效训练
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文研究了声场分类中不匹配的录音设备情况,并提出了一种通过频率方面的规范化进行输入和卷积神经网络中隐藏层激活的处理的方法,以减少记录设备之间的差异。实验证明,该方法在未经训练的录音设备上提高了ASC性能18.2个百分点。
🎯
关键要点
- 研究了声场分类中不匹配的录音设备情况。
- 提出通过频率方面的规范化减少记录设备之间的差异。
- 目标是将该方法应用于音频谱图转换器,成为声场分类主流模型。
- 考察不同录音设备特征如何编码到隐藏层激活中。
- 推断对输入谱图进行抑制可有效去除记录设备特征。
- 提出频率居中的谱图操作,提升未经训练的录音设备上 ASC 性能 18.2%。
➡️