小红花·文摘

模型量化是将高精度模型转为低精度模型的过程，能有效降低显存占用并提升推理速度。常见的量化方法有GGUF、GPTQ和AWQ，适用于不同场景，优化计算效率和存储需求。

什么是模型量化

陈少文的博客 ·

本文探讨了大语言模型（LLMs）在资源受限环境中的优化问题，综述了知识蒸馏、模型量化和模型剪枝等压缩技术，提供了有效的解决方案和成功案例，为研究者和从业者在边缘设备上优化LLM提供参考。

Optimizing LLMs for Resource-Constrained Environments: A Survey of Model Compression Techniques

BriefGPT - AI 论文速递 ·

精度与通用性不可兼得，北大华为理论证明低精度下scaling law难以实现

机器之心 ·

模型量化对模型精度影响的研究

编译程序 ·

本文概述了大规模神经网络模型量化的原则、挑战和方法，强调了模型规模增长带来的计算和能源成本问题。探讨了后训练量化和量化感知训练技术，展示了如何在保持精度的同时降低模型规模，提高效率，以支持可持续的大规模模型部署。

The Art and Science of Quantizing Large-Scale Models: A Comprehensive Overview

BriefGPT - AI 论文速递 ·

本文介绍了Fireworks团队处理模型量化和评估量化质量的方法，建议使用散度指标和任务指标来评估模型。不同的量化技术对使用场景有不同影响，开发者是量化质量的最佳评判者。文章还提到了KL散度作为评估量化质量的指标，并介绍了其他评估方法的问题。Fireworks的量化方法能够在速度和质量之间实现平衡，提供行业领先的速度和成本效率。

如何准确且可解释地评估大模型量化效果？

OneFlow深度学习框架 ·

本文调查了视觉变换器（ViTs）的模型量化与硬件加速，提出了VAQF框架以在FPGA上加速量化ViT模型，满足帧速率要求。研究还介绍了基于知识蒸馏的量化方法，提升了模型准确性和训练效率，并提出了I-ViT整数量化方案，减少模型复杂性，适用于边缘设备。

Quasar-ViT: 面向硬件的量化感知架构搜索视觉 Transformer

BriefGPT - AI 论文速递 ·

手机端运行大型模型是未来趋势，但硬件条件限制。目前高端手机如iPhone 15 Pro显存不足，无法支持大型模型。通过模型量化可以降低显存需求，部分应用已实现优化，能够在低内存设备上运行。尽管图生成模型在高端机上可行，LLM模型仍需系统级集成，实际应用尚待时日。

GGUF是一种二进制模型文件格式，专为在CPU上快速加载和保存模型而设计。它采用多种技术来保存模型，包括紧凑的二进制编码格式、优化的数据结构和内存映射，使模型加载和使用更快速、资源消耗更低。GGUF还支持模型量化，将模型权重量化为较低位数的整数，降低模型大小和内存消耗，提高计算效率，同时平衡性能和精度。GGUF在HuggingFace上已有大量应用，文件名格式以'Q'开头表示量化位数，后跟特定变体，这些变体根据量化方案的不同而命名，影响模型的大小、性能和精度。

GGUF 模型 - 蝈蝈俊

蝈蝈俊 ·

本文介绍了一种非常见的整型位数的模型量化方案，作者使用自己制作的量化程序将YI-34B模型转换为GGML格式，并进行了量化操作。量化后的模型尺寸大大减小，可以在CPU环境和CPU&GPU环境中进行推理。作者还介绍了模型量化的准备材料和具体操作步骤。最后，作者鼓励大家玩模型，感谢开源模型创作者和分享者的努力。

CPU 混合推理，非常见大模型量化方案：“二三五六” 位量化

苏洋博客 ·

本文介绍了大模型部署工具llama.cpp的使用方法，包括安装和配置过程，模型量化和运行GGUF模型，以及提供模型的API服务和使用curl和openai进行测试。

大模型部署工具 llama.cpp

陈少文的博客 ·

什么是模型量化

Optimizing LLMs for Resource-Constrained Environments: A Survey of Model Compression Techniques

有效的机器学习模型Python内存优化十大技巧

在PyTorch模型中优化内存使用

精度与通用性不可兼得，北大华为理论证明低精度下scaling law难以实现

模型量化对模型精度影响的研究

The Art and Science of Quantizing Large-Scale Models: A Comprehensive Overview

如何准确且可解释地评估大模型量化效果？

Quasar-ViT: 面向硬件的量化感知架构搜索视觉 Transformer

手机能跑图生成和 LLM 大模型吗

边缘AI的前景与有效采用的方法

LLM 推理和应用开源框架梳理 - JadePeng

GGUF 模型 - 蝈蝈俊

CPU 混合推理，非常见大模型量化方案：“二三五六” 位量化

大模型部署工具 llama.cpp

什么是模型量化

Optimizing LLMs for Resource-Constrained Environments: A Survey of Model Compression Techniques

有效的机器学习模型Python内存优化十大技巧

在PyTorch模型中优化内存使用

精度与通用性不可兼得，北大华为理论证明低精度下scaling law难以实现

模型量化对模型精度影响的研究

The Art and Science of Quantizing Large-Scale Models: A Comprehensive Overview

如何准确且可解释地评估大模型量化效果？

Quasar-ViT: 面向硬件的量化感知架构搜索视觉 Transformer

手机能跑图生成和 LLM 大模型吗

边缘AI的前景与有效采用的方法

LLM 推理和应用 开源框架梳理 - JadePeng

GGUF 模型 - 蝈蝈俊

CPU 混合推理，非常见大模型量化方案：“二三五六” 位量化

大模型部署工具 llama.cpp

LLM 推理和应用开源框架梳理 - JadePeng