小红花·文摘

机器之心 ·

本研究提出MultiFoley模型，旨在解决视频音效生成中的艺术性与真实来源差异问题。该模型能够从静音视频和文本提示中生成高质量音效，显著提高音效的同步性和质量。

BriefGPT - AI 论文速递 ·

生成媒体团队的V2A技术通过视频像素和文本提示生成音轨，使无声视频具备音效。该技术结合视频生成模型，为各种视频创作丰富的音景。V2A系统编码视频输入，利用扩散模型生成与视频同步的音频，提升音质和口型同步。团队致力于负责任地开发AI技术，确保对创意社区产生积极影响。

Google DeepMind Blog ·

生成媒体团队的V2A技术通过视频像素和文本提示生成音轨，为无声视频添加音效。该技术结合视频生成模型，能够为各种视频创造丰富的音景，用户可通过正负提示控制音效。V2A系统利用扩散模型生成与视频同步的音频，提升音质和口型同步。团队致力于负责任地开发此技术，并在广泛发布前进行安全评估。

Google DeepMind Blog ·