小红花·文摘 - 小红花技术领袖俱乐部

本文介绍了Transformer支持的两种量化方案：bitsandbytes和auto-gptq，分别适用于微调和生成。比较了两种方案的优缺点，提出了一种获得更好合并模型的方法。

Transformers中原生支持的量化方案概述

极道 ·

使用bitsandbytes、4位量化和QLoRA提高LLM的可访问性

使用bitsandbytes、4位量化和QLoRA提高LLM的可访问性

Hugging Face - Blog ·

A Gentle Introduction to 8-bit Matrix Multiplication for transformers at scale using transformers, accelerate and bitsandbytes

Hugging Face - Blog ·