Google DeepMind Blog ·

为视频生成音频

💡 原文约1100字/词，阅读约需4分钟。

📝

内容提要

生成媒体团队的V2A技术通过视频像素和文本提示生成音轨，为无声视频添加音效。该技术结合视频生成模型，能够为各种视频创造丰富的音景，用户可通过正负提示控制音效。V2A系统利用扩散模型生成与视频同步的音频，提升音质和口型同步。团队致力于负责任地开发此技术，并在广泛发布前进行安全评估。

🎯

🔎

V2A技术通过结合视频像素和文本提示，能够为无声视频生成丰富的音轨。这一创新不仅提升了视频的表现力，还为创作者提供了更多的创作自由，尤其是在传统影像资料和无声电影的再创作中，拓宽了艺术表现的边界。

V2A系统允许用户通过正负提示来控制生成的音效，这种灵活性使得用户能够快速实验不同的音频输出，选择最符合视频内容的音轨。这种快速迭代的能力对于创作者在制作过程中优化音效至关重要。

尽管V2A技术在音频生成方面表现出色，但其音质仍然依赖于视频输入的质量。视频中的失真或伪影可能导致音频质量下降。此外，口型同步问题仍需进一步研究，以确保生成的音频与角色的口型动作相匹配。

❓

V2A技术通过视频像素和文本提示生成音轨，为无声视频创造丰富的音景。

用户可以通过正负提示来控制生成的音效，指导输出到期望的声音或避免不希望的声音。

V2A技术采用了扩散模型来生成与视频同步的音频，提升音质和口型同步。

音频输出质量依赖于视频输入的质量，视频中的伪影或失真可能导致音频质量下降。

团队在广泛发布前进行安全评估，并收集创作者和电影制作人的反馈，以确保技术的积极影响。

V2A技术可以为任何视频输入生成无限数量的音轨。

🏷️