Apple Machine Learning Research ·

StereoFoley：基于视频的对象感知立体音频生成

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

本文介绍了StereoFoley框架，该框架能够从视频生成语义对齐、时间同步和空间准确的立体音频。该模型克服了现有数据集的限制，通过合成数据生成管道实现对象感知的立体声音。研究还引入了立体对象感知度量，并通过人类听觉研究验证了其有效性，建立了视频到音频生成的新基准。

🎯

🔎

StereoFoley框架通过合成数据生成管道，克服了现有数据集的局限性，实现了从视频生成空间准确的立体音频。这一创新不仅提升了音频的语义对齐和时间同步，还为音频生成领域设定了新的基准，推动了技术的发展。

研究引入的立体对象感知度量，强调了在音频生成中考虑对象位置和动态的重要性。这种方法使得生成的音频更具沉浸感，能够更好地反映视频中的场景，提升用户的听觉体验。

通过人类听觉研究验证立体对象感知的有效性，表明该框架生成的音频与人类的感知有强相关性。这一结果不仅增强了研究的可信度，也为未来的音频生成模型提供了重要的参考依据。

❓

StereoFoley框架能够从视频生成语义对齐、时间同步和空间准确的立体音频，采样率为48 kHz。

该研究引入了一种合成数据生成管道，结合视频分析、对象跟踪和音频合成，实现空间准确的对象感知声音。

StereoFoley在语义准确性和时间同步方面达到了最先进的水平，生成的音频具有清晰的对象-音频对应关系。

研究通过人类听觉研究验证了立体对象感知度量，显示出与感知的强相关性。

该工作建立了首个端到端的立体对象感知视频到音频生成框架，填补了关键空白，并设定了该领域的新基准。

StereoFoley框架的音频采样率为48 kHz。

🏷️