NVIDIA Blog ·

NVIDIA 加速谷歌 DeepMind 的 DiffusionGemma 本地 AI

💡 原文英文，约1200词，阅读约需5分钟。

📝

内容提要

谷歌DeepMind发布了DiffusionGemma，一个优化的文本生成模型，能够并行生成多个词，显著提高生成速度。该模型基于Gemma 4架构，性能比传统模型快4倍，适合低延迟的单用户应用，如互动聊天和智能助手，并支持本地生成，无需云计算。

🎯

🔎

DiffusionGemma采用并行生成技术，能够在每一步去噪多达256个标记，这使得其在处理低延迟应用时表现出色。与传统的逐步生成模型相比，这种方法显著提高了文本生成的速度，适合需要快速响应的场景，如互动聊天和智能助手。

DiffusionGemma支持本地生成，无需依赖云计算，这对于数据隐私和实时应用至关重要。开发者可以在本地硬件上高效运行该模型，避免了云服务的延迟和费用，适合对性能要求高的专业工作流。

传统的自回归模型通常在生成文本时依赖于前一个标记，导致生成速度较慢。而DiffusionGemma通过并行处理多个标记，能够实现每秒生成1000个标记，速度是传统模型的四倍。这种性能提升为开发者提供了更高效的工具，推动了AI应用的发展。

❓

DiffusionGemma能够并行生成多个词，每一步去噪多达256个标记，性能比传统模型快4倍，适合低延迟的单用户应用。

DiffusionGemma基于Gemma 4架构，这是一个26亿参数的混合专家模型。

通过并行生成多个词，DiffusionGemma能够在每秒生成1000个标记，显著提高生成速度。

DiffusionGemma支持NVIDIA RTX和DGX Spark等硬件平台，完全在本地运行，无需云计算。

适合低延迟的单用户应用，如互动聊天和智能助手。

可以通过Hugging Face Transformers在GeForce RTX 5090或DGX Spark上直接运行DiffusionGemma进行测试和原型开发。

🏷️