使用AutoGPTQ和Transformers让大型语言模型更轻量化
原文英文,约2200词,阅读约需8分钟。发表于: 。Hugging Face将AutoGPTQ库整合到Transformers中,允许用户使用GPTQ算法以8、4、3或2位精度量化和运行模型。该集成适用于Nvidia和RoCm-powered AMD GPU。GPTQ方法采用混合int4/fp16量化方案,可节省内存并提高速度。AutoGPTQ库为利用GPTQ进行LLM的一站式解决方案。该集成还支持使用PEFT进行微调,并与Exllama内核兼容。Text-Generation-Inference库现在支持GPTQ,允许在生产中提供大型语言模型。Optimum库提供了AutoGPTQ API的简化版本,与Transformers无缝集成。该集成具有可序列化的量化模型和降低的内存需求等优势。量化技术和内核实现仍有改进空间。目前的集成支持具有解码器或仅编码器架构的大型语言模型。与AutoGPTQ团队的合作取得了丰硕的成果,Hugging Face希望这一集成能让每个人更轻松地在应用中使用LLM。