ICML25 | 让耳朵「看见」方向!仅依靠360°全景视频,就能生成3D空间音频

💡 原文中文,约1900字,阅读约需5分钟。
📝

内容提要

OmniAudio团队开发了一项新技术,能够从360°全景视频生成3D空间音频,增强沉浸感。通过构建包含10万多个视频片段的Sphere360数据集,OmniAudio在音频生成方面显著优于传统方法,未来将继续研究多目标视频理解技术。

🎯

关键要点

  • OmniAudio团队开发了一项新技术,能够从360°全景视频生成3D空间音频,增强沉浸感。
  • 现有技术主要基于固定视角视频,未充分利用360°全景视频中的空间信息。
  • OmniAudio提出360V2SA任务,旨在直接从360°视频生成FOA音频,满足沉浸式体验需求。
  • Sphere360是第一个大规模360V2SA数据集,包含超过10万个视频片段,涵盖288种音频事件。
  • OmniAudio的训练方法分为自监督的coarse-to-fine流匹配预训练和有监督微调两个阶段。
  • OmniAudio在Sphere360-Bench和YT360-Test测试集上显著优于所有基线,但在复杂场景中仍面临挑战。
  • 未来研究将探索更好地理解多目标360°视频的技术,并扩充数据集以推动领域发展。

延伸问答

OmniAudio技术的主要功能是什么?

OmniAudio技术能够从360°全景视频生成3D空间音频,增强沉浸感。

Sphere360数据集的特点是什么?

Sphere360是第一个大规模360V2SA数据集,包含超过10万个视频片段,涵盖288种音频事件。

OmniAudio的训练方法分为哪两个阶段?

OmniAudio的训练方法分为自监督的coarse-to-fine流匹配预训练和有监督微调两个阶段。

360V2SA任务的目的是什么?

360V2SA任务旨在直接从360°视频生成FOA音频,以满足沉浸式体验的需求。

OmniAudio在测试集上的表现如何?

OmniAudio在Sphere360-Bench和YT360-Test测试集上显著优于所有基线,但在复杂场景中仍面临挑战。

未来OmniAudio团队的研究方向是什么?

未来研究将探索更好地理解多目标360°视频的技术,并扩充数据集以推动领域发展。

➡️

继续阅读