本研究提出Smooth-Foley模型,旨在解决视频到音频生成中的语义和时间对齐问题。该模型通过文本标签的语义指导,提升了生成音频的质量和与物理法则的一致性,表现优于现有模型。
完成下面两步后,将自动完成登录并继续当前操作。