一台3090就能跑Gemma 3 27B！谷歌发布Gemma 3全系QAT版模型

机器之心 ·

一台3090就能跑Gemma 3 27B！谷歌发布Gemma 3全系QAT版模型

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

谷歌Gemma 3新版本通过量化感知训练（QAT）优化，显著降低内存需求，27B模型的VRAM从54GB降至14.1GB，支持在消费级GPU上运行，用户可在RTX 3090等设备上轻松使用，提升AI功能。

🎯

关键要点

谷歌Gemma 3新版本经过量化感知训练（QAT）优化，显著降低内存需求。
27B模型的VRAM从54GB降至14.1GB，支持在消费级GPU上运行。
用户可在RTX 3090等设备上轻松使用Gemma 3，提升AI功能。
QAT将量化过程融入训练阶段，保持模型质量。
Gemma 3不同版本的VRAM需求显著减少，12B版本从24GB降至6.6GB。
Gemma 3 27B (int4)可在单张NVIDIA RTX 3090上本地运行。
Gemma 3 12B (int4)可在NVIDIA RTX 4060等笔记本电脑GPU上高效运行。
更小型号（4B、1B）为资源有限的系统提供可访问性。
谷歌与开发者工具合作，用户可无缝体验基于QAT的量化checkpoint。
网友对Gemma 3的本地运行表示兴奋，期待进一步的量化技术进展。

❓

延伸问答

Gemma 3的新版本有什么主要改进？

Gemma 3的新版本通过量化感知训练（QAT）优化，显著降低内存需求，27B模型的VRAM从54GB降至14.1GB。

我可以在什么设备上运行Gemma 3 27B模型？

Gemma 3 27B模型可以在单张NVIDIA RTX 3090等消费级GPU上本地运行。

量化感知训练（QAT）是如何工作的？

QAT将量化过程融入训练阶段，通过模拟低精度运算，保持模型质量并减少准确率损失。

Gemma 3的不同版本在VRAM需求上有什么变化？

Gemma 3 27B的VRAM从54GB降至14.1GB，12B从24GB降至6.6GB，4B从8GB降至2.6GB，1B从2GB降至0.5GB。

Gemma 3的量化技术对开发者有什么影响？

Gemma 3的量化技术使得开发者能够在资源有限的设备上运行更强大的AI模型，提升了可访问性。

Gemma 3的12B版本可以在哪些设备上运行？

Gemma 3 12B版本可以在NVIDIA RTX 4060等笔记本电脑GPU上高效运行。

🏷️

继续阅读

Gemma 4 QAT模型：优化移动设备和笔记本电脑的模型压缩效率
Gemma 4最近发布了优化的量化感知训练（QAT）检查点，提升了模型在移动设备上的效率，减少了压缩时的质量损失，显著降低了内存占用，适合在日常边缘设备上...
有网友在谷歌搜索Codex被恶意广告欺骗带毒版直接窃取2万美元的加密货币
近期有网友在谷歌搜索Codex时被骗，损失高达2万美元的加密货币。攻击者利用谷歌商家域名创建钓鱼网站，诱导用户执行恶意安装命令，导致用户剪贴板内容被替换。...
谷歌Gemma 4 12B的性能几乎与26B基准相当——并可在您的笔记本电脑上运行
谷歌推出了Gemma 4 12B模型，旨在为标准笔记本电脑提供高性能的多模态智能。该模型内存占用比Gemma 4 26B小一半，但性能接近，支持本地运行，...
我用彩色配件定制了一台MacBook Neo
苹果的MacBook Neo是最便宜、色彩丰富且易于维修的笔记本电脑。用户可以自行更换彩色配件，尽管成本较高。作者尝试定制Neo，替换触控板、底壳和键帽，...
智源&清华合作成果登上Science：脑科学多模态基础模型Brainμ支撑揭示“记忆-睡眠”调控的神经机制
研究表明，睡眠中的记忆重激活影响睡眠动态，提供了“记忆-睡眠”双向作用的新证据。智源研究院与清华大学的研究发现，负向记忆再激活加剧睡眠碎片化，而正向记忆再...
从超级个体到超级团队，腾讯云发布WorkBuddy企业版
腾讯云在AI产业应用大会上发布了WorkBuddy企业版及办公智能体套件，旨在帮助企业实现AI转型。该套件提供数字员工、人机协作和团队管理功能，提升工作效...