量子位 ·

ICLR 2025 Spotlight：音频生成新突破！港科北邮团队首次通过文本控制声源方向生成音频

💡 原文中文，约4600字，阅读约需11分钟。

📝

内容提要

港科大与北邮团队在ICLR 2025上展示了一项创新技术，能够通过文本控制声源方向生成多通道音频，显著提升空间音频生成的控制能力，具有广泛的应用前景。

🎯

🔎

港科大与北邮团队的研究突破了传统的单通道音频生成限制，首次实现了通过文本控制声源方向生成多通道音频。这一技术在影视娱乐、AR/VR等领域具有广泛的应用潜力，能够提升用户的沉浸感和体验质量。

BEWO-1M数据集是本研究的核心，包含超过100万条音频-文本对，支持动态声源和多声源场景。该数据集的丰富性和多样性为生成模型提供了必要的训练基础，确保了生成音频的方向感和空间感。

研究团队提出的双阶段和单阶段生成方案各有优缺点。双阶段方案虽然能生成多通道音频，但在复杂场景下表现不佳；而单阶段方案则在空间音频控制能力上有所欠缺。未来的研究需要在多样性与控制之间找到更好的平衡。

❓

他们展示了一项通过文本控制声源方向生成多通道音频的创新技术。

该技术在影视娱乐、AR/VR等领域具有广泛的应用前景。

BEWO-1M数据集包含超过100万条音频-文本对，支持动态声源和多声源场景，且带有丰富的空间描述。

传统的Text2Audio模型只能生成单通道音频，未能充分利用人类的双耳感知能力。

研究团队从数据、模型和评价标准三个方面创新性地将声源方向控制纳入生成范围。

未来的改进方向包括引入HRTF模拟、解决in domain问题和提升模型的优雅性。

🏷️