本文介绍了一种低复杂度的深度学习系统,通过教师-学生网络训练实现声场分类,精度达到57.4%,比传统方法提升14.5%。同时,提出了基于残差-插入结构的深度神经网络模型,能够准确识别场景噪音,并进行了模型细节分析。
本文研究了声场分类中不匹配的录音设备情况,并提出了一种通过频率方面的规范化进行输入和卷积神经网络中隐藏层激活的处理的方法,以减少记录设备之间的差异。实验证明,该方法在未经训练的录音设备上提高了ASC性能18.2个百分点。
完成下面两步后,将自动完成登录并继续当前操作。