小众软件 ·

浏览器里跑 Gemma 4：不用 API、不花钱，无限量生成 Excalidraw 流程图

💡 原文中文，约1100字，阅读约需3分钟。

📝

内容提要

Gemma 4 现已支持在手机和浏览器上运行，开发者利用 Google 的 TurboQuant 算法将其集成。用户可以在 Excalidraw 中本地生成图形，无需在线模型和 Token，只需下载 3.1GB 的模型。TurboQuant 算法压缩 KV Cache，提高了模型的上下文记忆能力，支持更长对话，且节省成本，用户可无限制使用。

🎯

关键要点

Gemma 4 现已支持在手机和浏览器上运行。
开发者利用 Google 的 TurboQuant 算法将 Gemma 4 集成到浏览器中。
用户可以在 Excalidraw 中本地生成图形，无需在线模型和 Token。
下载 Gemma 4 E2B 大模型需要 3.1GB 的存储空间。
TurboQuant 算法压缩 KV Cache，提高了模型的上下文记忆能力，支持更长对话。
KV Cache 从约 37MB 压缩到约 15MB，压缩比约 2.4 倍。
用户可以无限制使用本地模型，节省成本。

🔎

延伸解读

本地生成图形的优势

Gemma 4 的本地运行模式使得用户无需依赖在线模型，避免了因网络问题导致的延迟和不稳定性。此外，用户可以无限制地生成图形，降低了使用成本，适合需要频繁生成图形的用户和团队。

TurboQuant 算法的影响

TurboQuant 算法通过压缩 KV Cache，提高了模型的上下文记忆能力，使得 AI 能够处理更长的对话。这意味着用户在与 AI 交互时，可以获得更连贯和上下文相关的回应，提升了使用体验。

存储需求与使用限制

虽然 Gemma 4 提供了强大的功能，但用户需要注意下载 3.1GB 的模型所需的存储空间。此外，当前仅支持桌面版 Chrome 134+ 版本，这可能限制了一部分用户的使用。

❓

延伸问答

Gemma 4 可以在哪些设备上运行？

Gemma 4 现已支持在手机和浏览器上运行。

TurboQuant 算法的主要功能是什么？

TurboQuant 算法可以压缩 KV Cache，提高模型的上下文记忆能力，支持更长对话。

使用 Gemma 4 生成图形需要哪些步骤？

用户只需下载 3.1GB 的 Gemma 4 E2B 大模型，然后在浏览器中打开指定网页即可生成图形。

Gemma 4 的 KV Cache 压缩效果如何？

KV Cache 从约 37MB 压缩到约 15MB，压缩比约 2.4 倍。

Gemma 4 生成图形的速度如何？

Gemma 4 每秒生成约 24 个 token，端到端速度约为每秒 22.7 个 token。

使用 Gemma 4 生成图形是否需要联网？

不需要，整个过程在本地完成，无需调用在线模型。

🏷️