量子位 ·

字节开源统一框架Bernini：给DiT配个“大模型军师”，AI视频编辑先理解再动手

💡 原文中文，约4800字，阅读约需12分钟。

📝

内容提要

字节推出了开源视频生成与编辑框架Bernini，强调“先理解再生成”。该框架利用多模态大模型进行语义理解，并通过扩散模型实现高质量渲染，解决视频编辑中的一致性和自然性问题。Bernini支持多种编辑选项，如天气、风格和焦点，能够处理复杂视觉效果，提高创作的可控性和稳定性。

🎯

🔎

Bernini框架通过将语义理解与视觉渲染分开，提升了视频生成的质量和稳定性。这种分工明确的设计，使得AI能够更好地理解创作者的意图，从而生成更符合需求的视频内容。创作者在使用Bernini时，可以更专注于创意，而不必担心技术细节的复杂性。

Bernini支持多种输入形式，包括文本、参考图像和视频，这为创作者提供了更大的灵活性。通过结合不同的视觉素材，创作者可以实现更复杂的编辑效果，确保生成的视频在视觉上保持一致性。这种能力尤其适合广告、影视预演等需要高质量视觉效果的场景。

Bernini的能力使其在多个领域具有广泛的应用潜力，如广告创意、电商展示和影视制作。创作者可以利用其强大的编辑功能，快速生成符合特定需求的视频内容，提升工作效率。此外，Bernini的开源特性也鼓励更多开发者参与到AI视频创作的探索中。

❓

Bernini框架主要用于视频生成与编辑，强调先理解再生成，利用多模态大模型进行语义理解，并通过扩散模型实现高质量渲染。

Bernini通过将语义规划与视觉渲染分开，确保生成的视频在风格和内容上保持一致性，避免出现主体变形和背景漂移等问题。

Bernini支持多种编辑选项，包括天气、风格、焦点等，能够处理复杂的视觉效果。

Bernini的开源代码和权重已在GitHub上开放，用户可以访问相关链接进行下载和使用。

Bernini通过将语义理解与视觉渲染分工明确，使得创作者可以更精确地控制视频的各个方面，减少创作过程中的不确定性。

Bernini支持基于参考图像和视频进行编辑，能够自然融入新元素，并保持整体画面的稳定性和一致性。

🏷️