InfoQ ·

谷歌的Gemma 3 QAT语言模型可以在消费级GPU上本地运行

💡 原文英文，约600词，阅读约需3分钟。

📝

内容提要

谷歌推出Gemma 3 QAT系列，采用量化感知训练（QAT），将模型权重从16位量化至4位，保持高精度。该系列包括四种模型（1B、4B、12B、27B），可在低功耗硬件上运行，降低VRAM需求。同时，Gemma 3增强了视觉能力，用户反馈良好。模型权重可在HuggingFace等平台获取。

🎯

关键要点

谷歌推出Gemma 3 QAT系列，采用量化感知训练（QAT），将模型权重从16位量化至4位，保持高精度。
Gemma 3系列包括四种模型（1B、4B、12B、27B），可在低功耗硬件上运行，降低VRAM需求。
27B模型可在24GB VRAM的桌面NVIDIA RTX 3090 GPU上运行，12B模型可在8GB VRAM的笔记本NVIDIA RTX 4060 GPU上运行。
Gemma 3增强了视觉能力，用户反馈良好，尤其是27B模型表现出色。
未量化的Gemma 3模型需要较高的GPU资源，例如12B模型需要RTX 5090和32GB VRAM。
谷歌使用QAT技术在训练期间模拟推理时间量化，以减少量化带来的精度损失。
用户在Hacker News上对QAT模型的性能给予了高度评价，认为其信息密度惊人。
Gemma 3 QAT模型权重可在HuggingFace等平台获取，并支持多种流行的LLM框架。

❓

延伸问答

Gemma 3 QAT模型的主要特点是什么？

Gemma 3 QAT模型采用量化感知训练，将权重从16位量化至4位，保持高精度，并包括1B、4B、12B和27B四种模型，适合低功耗硬件运行。

Gemma 3 QAT模型在硬件上的要求是什么？

27B模型可在24GB VRAM的NVIDIA RTX 3090上运行，12B模型可在8GB VRAM的NVIDIA RTX 4060上运行，较小模型可在手机等边缘设备上运行。

量化感知训练（QAT）如何提高模型的精度？

QAT在训练期间模拟推理时间量化，减少量化带来的精度损失，最多可降低54%的精度损失。

用户对Gemma 3 QAT模型的反馈如何？

用户在Hacker News上对QAT模型的性能给予高度评价，认为其信息密度惊人，尤其是27B模型表现出色。

Gemma 3 QAT模型的权重在哪里可以获取？

Gemma 3 QAT模型的权重可在HuggingFace等平台获取，并支持多种流行的LLM框架。

Gemma 3与之前的Gemma模型相比有什么改进？

Gemma 3在性能上有显著提升，增加了视觉能力，并被称为“顶级开放紧凑模型”。

🏷️

继续阅读

Gemma 4 QAT模型：优化移动设备和笔记本电脑的模型压缩效率
Gemma 4最近发布了优化的量化感知训练（QAT）检查点，提升了模型在移动设备上的效率，减少了压缩时的质量损失，显著降低了内存占用，适合在日常边缘设备上...
深入探讨语言模型的校准：Platt缩放、等距回归与温度缩放
大型语言模型（LLMs）普遍存在误校准问题，导致信心分数与实际正确率不符。传统的后处理校准方法包括温度缩放、Platt缩放和等距回归，但由于LLMs的复杂...
有网友在谷歌搜索Codex被恶意广告欺骗带毒版直接窃取2万美元的加密货币
近期有网友在谷歌搜索Codex时被骗，损失高达2万美元的加密货币。攻击者利用谷歌商家域名创建钓鱼网站，诱导用户执行恶意安装命令，导致用户剪贴板内容被替换。...
谷歌800亿融资，巴菲特久违接盘，背后有什么鬼故事？
谷歌融资847.5亿美元并停止股票回购，以应对未来挑战并囤积现金。巴菲特的伯克希尔哈撒韦投资100亿美元，显示市场对AI的信心。科技巨头们纷纷转向AI基础...
谷歌Gemma 4 12B的性能几乎与26B基准相当——并可在您的笔记本电脑上运行
谷歌推出了Gemma 4 12B模型，旨在为标准笔记本电脑提供高性能的多模态智能。该模型内存占用比Gemma 4 26B小一半，但性能接近，支持本地运行，...
谷歌允许社交媒体明星自定义他们的搜索结果页面
谷歌允许美国的大型创作者和出版商申请专属搜索资料，展示他们的在线内容，如视频和文章。此功能仅限于拥有至少10万YouTube订阅者、10万Instagra...