Google DeepMind Blog ·

介绍Gemini Omni

💡 原文英文，约1500词，阅读约需6分钟。

📝

内容提要

谷歌推出了Gemini Omni Flash模型，能够从视频、图像、音频和文本生成高质量视频。用户可以通过自然语言编辑视频，改变场景、角色和动作。该模型结合物理知识和文化背景，创造出更真实的视觉效果。目前已向Google AI Plus、Pro和Ultra用户开放，并将在YouTube Shorts和Create App上免费提供。

🎯

关键要点

谷歌推出了Gemini Omni Flash模型，能够从视频、图像、音频和文本生成高质量视频。
用户可以通过自然语言编辑视频，改变场景、角色和动作。
该模型结合物理知识和文化背景，创造出更真实的视觉效果。
目前已向Google AI Plus、Pro和Ultra用户开放，并将在YouTube Shorts和Create App上免费提供。

🔎

延伸解读

Gemini Omni的多模态能力

Gemini Omni Flash模型的推出标志着视频创作的一个新阶段。它不仅支持视频、图像、音频和文本的组合输入，还能通过自然语言进行视频编辑。这种多模态能力使得用户能够更灵活地表达创意，尤其适合需要快速迭代和修改的创作过程。

物理知识与文化背景的结合

Gemini Omni在生成视频时，结合了物理知识和文化背景。这意味着生成的场景不仅在视觉上真实，还能在逻辑上合理。这种能力对于教育和宣传类视频尤其重要，因为它能帮助观众更好地理解复杂概念和故事情节。

用户隐私与内容透明性

谷歌承诺在使用Gemini Omni时保护用户隐私，并通过SynthID数字水印确保内容的透明性。这一措施不仅增强了用户对生成内容的信任，也为未来的内容创作提供了安全保障，尤其是在涉及个人数字化身的情况下。

❓

延伸问答

Gemini Omni Flash模型的主要功能是什么？

Gemini Omni Flash模型能够从视频、图像、音频和文本生成高质量视频，并允许用户通过自然语言编辑视频。

用户如何通过Gemini Omni编辑视频？

用户可以通过自然语言指令编辑视频，改变场景、角色和动作，所有指令会基于之前的编辑进行调整。

Gemini Omni如何结合物理知识和文化背景？

Gemini Omni结合物理知识和文化背景，创造出更真实的视觉效果，并能够推理出接下来应该发生的事情。

Gemini Omni Flash模型目前向哪些用户开放？

Gemini Omni Flash模型目前已向Google AI Plus、Pro和Ultra用户开放，并将在YouTube Shorts和Create App上免费提供。

Gemini Omni的输出模式有哪些？

目前Gemini Omni支持视频输出，未来将支持图像和音频等其他输出模式。

如何使用Gemini Omni创建数字化身？

用户可以创建自己的数字化身，通过Avatars生成看起来和听起来像自己的视频。

🏷️