量子位 ·

Mythos阴影里谷歌悄悄发模型，速度暴涨4倍

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

谷歌推出了新型文本生成模型DiffusionGemma，采用扩散模型技术，生成速度比传统自回归模型快4倍。该模型一次性生成256个token，支持实时自我纠错，适合速度敏感的本地应用。尽管质量上与同类模型存在差距，但其并行计算能力展示了未来大模型的潜力。

🎯

🔎

DiffusionGemma的扩散模型在生成速度上表现出色，适合需要快速响应的应用场景。然而，其在生成文本质量上仍存在不足，尤其是在与同类自回归模型的比较中。因此，用户在选择模型时需权衡速度与质量的需求，特别是在生产环境中。

DiffusionGemma的双向注意力机制使得每个token能够同时参考其他token，这为实时自我纠错提供了可能。这一特性在需要前后文协调的任务中，如代码补全和复杂格式化，展现出明显优势，预示着未来在这些领域的广泛应用潜力。

由于DiffusionGemma在本地环境中表现出色，尤其是在消费级GPU上也能高效运行，适合个人开发者和小型团队使用。其开源协议和可下载的权重降低了使用门槛，使得更多用户能够尝试和应用这一新技术。

❓

DiffusionGemma模型采用扩散模型技术，生成速度比传统自回归模型快4倍，能够一次性生成256个token，并支持实时自我纠错。

DiffusionGemma通过并行计算解决了内存带宽瓶颈，允许同时对多个token进行处理，从而显著提高生成速度。

DiffusionGemma适合速度敏感的本地应用，如代码补全和复杂格式化等需要前后文协调的场景。

尽管DiffusionGemma在速度上有优势，但在生成质量上与同类模型存在差距，谷歌推荐在生产环境中使用标准Gemma 4。

双向注意力机制使得每个token可以同时看到其他token，从而增强生成文本的一致性，并实现实时自我纠错。

谷歌将DiffusionGemma视为对下一代模型形态的实验，探索大模型的速度上限，未来可能挑战自回归模型的主流地位。

🏷️