小红花·文摘

量化是解决AI规模问题的常用方法，通过舍弃低位数字来减少存储空间。本文介绍了无损量化训练方法（QAT），并比较了不同量化技术的优缺点。实验结果表明，QAT显著提升模型性能，减少嵌入向量大小，加快信息检索速度。

量化感知训练的jina-embeddings-v4

Jina AI · 2025-06-30T19:14:36Z

谷歌推出Gemma 3 QAT系列，采用量化感知训练（QAT），将模型权重从16位量化至4位，保持高精度。该系列包括四种模型（1B、4B、12B、27B），可在低功耗硬件上运行，降低VRAM需求。同时，Gemma 3增强了视觉能力，用户反馈良好。模型权重可在HuggingFace等平台获取。

谷歌的Gemma 3 QAT语言模型可以在消费级GPU上本地运行

InfoQ · 2025-04-29T13:00:00Z

Gemma 3 QAT模型通过量化技术降低内存使用，支持在个人GPU上运行，并可集成到Microsoft Word中，确保数据隐私且免除订阅费用。

在Word中使用强大的Gemma 3 QAT模型（100%私密）

DEV Community · 2025-04-22T11:05:58Z

谷歌Gemma 3新版本通过量化感知训练（QAT）优化，显著降低内存需求，27B模型的VRAM从54GB降至14.1GB，支持在消费级GPU上运行，用户可在RTX 3090等设备上轻松使用，提升AI功能。

一台3090就能跑Gemma 3 27B！谷歌发布Gemma 3全系QAT版模型

机器之心 · 2025-04-20T02:16:00Z

本文介绍了如何使用OpenVINO NNCF和Token Merging等技术对Stable Diffusion模型进行优化，以在资源受限的硬件上运行。通过QAT和Knowledge Distillation等方法，可以减少模型的推理时间和内存占用，同时保持准确性。实验结果表明，优化后的模型在CPU上的推理速度比PyTorch快5.1倍，模型大小减小至PyTorch的0.25倍。文章还提供了代码示例，讨论了如何优化通用的Stable Diffusion模型。

使用NNCF和🤗 Optimum优化Intel CPU上的Stable Diffusion

Hugging Face - Blog · 2023-05-25T00:00:00Z

<<
<
1 (current)
>
>>