量子位 ·

ICML25 | 让耳朵「看见」方向！仅依靠360°全景视频，就能生成3D空间音频

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

OmniAudio团队开发了一项新技术，能够从360°全景视频生成3D空间音频，增强沉浸感。通过构建包含10万多个视频片段的Sphere360数据集，OmniAudio在音频生成方面显著优于传统方法，未来将继续研究多目标视频理解技术。

🎯

❓

OmniAudio技术能够从360°全景视频生成3D空间音频，增强沉浸感。

Sphere360是第一个大规模360V2SA数据集，包含超过10万个视频片段，涵盖288种音频事件。

OmniAudio的训练方法分为自监督的coarse-to-fine流匹配预训练和有监督微调两个阶段。

360V2SA任务旨在直接从360°视频生成FOA音频，以满足沉浸式体验的需求。

OmniAudio在Sphere360-Bench和YT360-Test测试集上显著优于所有基线，但在复杂场景中仍面临挑战。

未来研究将探索更好地理解多目标360°视频的技术，并扩充数据集以推动领域发展。

🏷️

再谈响度战争：为什么你看的视频越来越「吵」了？
文章探讨了“响度战争”现象，即视频和音频内容为了吸引观众注意力而不断提高响度。这种趋势导致动态范围减小，影响听觉体验。虽然更响的声音能短期提升表现力，但可...
AdaCodec：一种适用于 AI 生成视频的编解码器
上海研究提出AdaCodec编解码器，通过优化帧间信息存储，显著减少AI视频生成的资源消耗。该系统在保持性能的同时，视觉令牌使用量减少约86%，提高了视频...
华为云发布Agentic AI系列新品打造智能时代“硅基黑土地”
史上最强游戏掌机来了！性能堪比 PS5，但……
坏消息：1 万块#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
国星宇航与腾讯云签署“星算”计划战略合作协议，携手领航AI云服务新生态
成都国星宇航与腾讯云签署战略合作协议，聚焦“星算”AI云服务，推动技术共创与生态建设，深化云服务与AI技术融合，助力数字经济发展。
Winxvideo AI 二十周年限免：视频压缩、本地AI提升画质、防抖
Winxvideo AI 正在进行二十周年限免活动，用户只需提供邮箱即可获取注册码。该软件集视频增强、图片修复、格式转换等功能于一体，支持超分辨率提升、帧...