Google DeepMind Blog ·

为视频生成音频

💡 原文约1100字/词，阅读约需4分钟。

📝

内容提要

生成媒体团队的V2A技术通过视频像素和文本提示生成音轨，使无声视频具备音效。该技术结合视频生成模型，为各种视频创作丰富的音景。V2A系统编码视频输入，利用扩散模型生成与视频同步的音频，提升音质和口型同步。团队致力于负责任地开发AI技术，确保对创意社区产生积极影响。

🎯

❓

V2A技术通过编码视频像素和文本提示，利用扩散模型生成与视频同步的音频，从而为无声视频提供音效。

V2A技术可以生成无限数量的音轨，包括背景音乐、对话和音效，适用于传统素材和无声电影。

V2A技术通过迭代优化音频生成过程，确保音频信息与视频内容紧密相关，从而实现同步。

用户可以通过正向和负向提示来指导生成的音频输出，从而控制音频的风格和内容。

V2A技术采用扩散模型生成音频，能够提升音质和口型同步，提供更真实的视听体验。

V2A技术在开发过程中进行严格的安全评估和测试，并使用SynthID工具对所有AI生成内容进行水印标记，以防止技术滥用。

🏷️