小红花·文摘

本研究提出Smooth-Foley模型，解决视频到音频生成中的语义和时间对齐问题，显著提升音频质量和物理一致性，优于现有模型。

BriefGPT - AI 论文速递 ·

我们提出了一种多模态扩散模型，专注于视频和音频的双向生成。通过联合对比训练损失，提高视听事件的同步性。实验显示，该模型在生成质量和对齐性能上优于基线，尤其在视频到音频生成任务中表现出色。

BriefGPT - AI 论文速递 ·