本文介绍了StereoFoley框架,该框架能够从视频生成语义对齐、时间同步和空间准确的立体音频。该模型克服了现有数据集的限制,通过合成数据生成管道实现对象感知的立体声音。研究还引入了立体对象感知度量,并通过人类听觉研究验证了其有效性,建立了视频到音频生成的新基准。
完成下面两步后,将自动完成登录并继续当前操作。