小红花·文摘

本研究提出Smooth-Foley模型，旨在解决视频到音频生成中的语义和时间对齐问题。该模型通过文本标签的语义指导，提升了生成音频的质量和与物理法则的一致性，表现优于现有模型。