Hugging Face - Blog ·

使用AutoGPTQ和Transformers让大型语言模型更轻量化

💡 原文英文，约2200词，阅读约需8分钟。

📝

内容提要

Hugging Face将AutoGPTQ库整合到Transformers中，允许用户使用GPTQ算法以8、4、3或2位精度量化和运行模型。该集成适用于Nvidia和RoCm-powered AMD GPU。GPTQ方法采用混合int4/fp16量化方案，可节省内存并提高速度。AutoGPTQ库为利用GPTQ进行LLM的一站式解决方案。该集成还支持使用PEFT进行微调，并与Exllama内核兼容。Text-Generation-Inference库现在支持GPTQ，允许在生产中提供大型语言模型。Optimum库提供了AutoGPTQ API的简化版本，与Transformers无缝集成。该集成具有可序列化的量化模型和降低的内存需求等优势。量化技术和内核实现仍有改进空间。目前的集成支持具有解码器或仅编码器架构的大型语言模型。与AutoGPTQ团队的合作取得了丰硕的成果，Hugging Face希望这一集成能让每个人更轻松地在应用中使用LLM。

🎯

关键要点

Hugging Face将AutoGPTQ库整合到Transformers中，支持使用GPTQ算法进行8、4、3或2位精度的模型量化。
该集成适用于Nvidia和RoCm支持的AMD GPU，采用混合int4/fp16量化方案，节省内存并提高速度。
AutoGPTQ库为利用GPTQ进行大型语言模型（LLM）提供了一站式解决方案，支持使用PEFT进行微调。
Text-Generation-Inference库现在支持GPTQ，允许在生产中提供大型语言模型。
Optimum库提供了AutoGPTQ API的简化版本，与Transformers无缝集成，具有可序列化的量化模型和降低的内存需求等优势。
量化技术和内核实现仍有改进空间，目前的集成支持具有解码器或仅编码器架构的大型语言模型。
Hugging Face希望这一集成能让每个人更轻松地在应用中使用LLM，促进机器学习的民主化。

🏷️

使用AutoGPTQ和Transformers让大型语言模型更轻量化

内容提要

关键要点

标签

继续阅读