基于波形域神经网络的Ambisonics超分辨率

基于波形域神经网络的Ambisonics超分辨率

💡 原文英文,约200词,阅读约需1分钟。
📝

内容提要

我们开发了一种数据驱动的空间音频解决方案,利用卷积时间域音频神经网络(Conv-TasNet),将第一阶Ambisonics(FOA)输入转换为更高阶的Ambisonics(HOA)输出。评估结果显示,预测的3阶HOA与实际之间的平均位置均方误差为0.6dB,感知质量比传统渲染方法提高了80%。

🎯

关键要点

  • Ambisonics是一种描述声场的空间音频格式。
  • 第一阶Ambisonics(FOA)格式仅包含四个通道,空间准确性有限。
  • 我们开发了一种数据驱动的空间音频解决方案,保留FOA格式的效率,同时超越传统渲染的质量。
  • 该解决方案利用卷积时间域音频神经网络(Conv-TasNet),将FOA输入转换为更高阶的Ambisonics(HOA)输出。
  • 与传统物理和心理声学渲染器相比,这种数据驱动的方法是新颖的。
  • 评估结果显示,预测的3阶HOA与实际之间的平均位置均方误差为0.6dB。
  • 感知质量比传统渲染方法提高了80%。
➡️

继续阅读