2025年11月14日,SHAC团队发布全球首个开源交互式空间音频格式,支持六自由度操控,用户可通过普通耳机在三维音频环境中自由移动。该格式结合Ambisonics技术,适用于音乐、游戏和教育等领域,具有高效播放和低延迟的特点。开发者Zyz希望通过SHAC培养创作者社群,推动技术发展。
本文介绍了一种基于卷积时间域音频神经网络(Conv-TasNet)的数据驱动空间音频解决方案,能够将一阶Ambisonics(FOA)输入转换为高阶Ambisonics(HOA)输出。该方法在空间准确性上优于传统渲染器,量化评估显示预测与实际第三阶HOA之间的平均位置均方误差为0.6dB,感知质量提高了80%。
ImmerseDiffusion是一种新型生成音频模型,能够根据空间、时间和环境条件生成高质量的3D沉浸式音景。该模型专注于一阶Ambisonics音频,支持描述性和参数化模式,适用于电影和游戏等场景,表现出色,具有广泛应用前景。
本研究提出了一个统一框架,解决了频率变化下声学参数估计的问题,显著提高了混响时间、混响比和清晰度的估计精度。新特征SSCV和FOA-Conv3D网络的表现优于现有方法。
完成下面两步后,将自动完成登录并继续当前操作。