ICLR 2025 Spotlight:音频生成新突破!港科北邮团队首次通过文本控制声源方向生成音频

💡 原文中文,约4600字,阅读约需11分钟。
📝

内容提要

港科大与北邮团队在ICLR 2025上展示了一项创新技术,能够通过文本控制声源方向生成多通道音频,显著提升空间音频生成的控制能力,具有广泛的应用前景。

🎯

关键要点

  • 港科大与北邮团队在ICLR 2025上展示了一项通过文本控制声源方向生成多通道音频的创新技术。
  • 该技术显著提升了空间音频生成的控制能力,适用于影视娱乐、AR/VR等领域。
  • 传统的Text2Audio模型只能生成单通道音频,未能充分利用人类的双耳感知能力。
  • 研究团队从数据、模型和评价标准三个方面创新性地将声源方向控制纳入生成范围。
  • BEWO-1M数据集是一个包含超过100万条音频-文本对的大规模双通道音频数据集,支持动态声源和多声源场景。
  • 生成方法包括双阶段方案和单阶段方案,研究团队提出了一条龙解决方案以提升空间音频的控制能力。
  • 研究中发现,方向的参与程度和caption长度会影响生成音频的质量。
  • 未来的改进方向包括引入HRTF模拟、解决in domain问题和提升模型的优雅性。
➡️

继续阅读