谷歌的Gemma 3 QAT语言模型可以在消费级GPU上本地运行

谷歌的Gemma 3 QAT语言模型可以在消费级GPU上本地运行

💡 原文英文,约600词,阅读约需3分钟。
📝

内容提要

谷歌推出Gemma 3 QAT系列,采用量化感知训练(QAT),将模型权重从16位量化至4位,保持高精度。该系列包括四种模型(1B、4B、12B、27B),可在低功耗硬件上运行,降低VRAM需求。同时,Gemma 3增强了视觉能力,用户反馈良好。模型权重可在HuggingFace等平台获取。

🎯

关键要点

  • 谷歌推出Gemma 3 QAT系列,采用量化感知训练(QAT),将模型权重从16位量化至4位,保持高精度。
  • Gemma 3系列包括四种模型(1B、4B、12B、27B),可在低功耗硬件上运行,降低VRAM需求。
  • 27B模型可在24GB VRAM的桌面NVIDIA RTX 3090 GPU上运行,12B模型可在8GB VRAM的笔记本NVIDIA RTX 4060 GPU上运行。
  • Gemma 3增强了视觉能力,用户反馈良好,尤其是27B模型表现出色。
  • 未量化的Gemma 3模型需要较高的GPU资源,例如12B模型需要RTX 5090和32GB VRAM。
  • 谷歌使用QAT技术在训练期间模拟推理时间量化,以减少量化带来的精度损失。
  • 用户在Hacker News上对QAT模型的性能给予了高度评价,认为其信息密度惊人。
  • Gemma 3 QAT模型权重可在HuggingFace等平台获取,并支持多种流行的LLM框架。

延伸问答

Gemma 3 QAT模型的主要特点是什么?

Gemma 3 QAT模型采用量化感知训练,将权重从16位量化至4位,保持高精度,并包括1B、4B、12B和27B四种模型,适合低功耗硬件运行。

Gemma 3 QAT模型在硬件上的要求是什么?

27B模型可在24GB VRAM的NVIDIA RTX 3090上运行,12B模型可在8GB VRAM的NVIDIA RTX 4060上运行,较小模型可在手机等边缘设备上运行。

量化感知训练(QAT)如何提高模型的精度?

QAT在训练期间模拟推理时间量化,减少量化带来的精度损失,最多可降低54%的精度损失。

用户对Gemma 3 QAT模型的反馈如何?

用户在Hacker News上对QAT模型的性能给予高度评价,认为其信息密度惊人,尤其是27B模型表现出色。

Gemma 3 QAT模型的权重在哪里可以获取?

Gemma 3 QAT模型的权重可在HuggingFace等平台获取,并支持多种流行的LLM框架。

Gemma 3与之前的Gemma模型相比有什么改进?

Gemma 3在性能上有显著提升,增加了视觉能力,并被称为“顶级开放紧凑模型”。

➡️

继续阅读