小红花·文摘

港科大与北邮团队在ICLR 2025上展示了一项创新技术，能够通过文本控制声源方向生成多通道音频，显著提升空间音频生成的控制能力，具有广泛的应用前景。

量子位 ·

DEV Community ·

本文探讨了多通道音频中的声音事件检测，提出了结合低级空间特征和卷积递归神经网络的方法。研究表明，使用多声道音频和空间特征显著提升了检测性能，尤其在公开数据集上表现突出。此外，介绍了SoundDet框架和双重知识蒸馏方法，强调其在实时处理和紧凑型系统中的重要性。

BriefGPT - AI 论文速递 ·