Chatglm3部署踩坑记录

💡 原文中文,约700字,阅读约需2分钟。
📝

内容提要

文章讲述了使用某软件时遇到的问题和解决方法,包括缺少cudatoolkit和代码中的device_map参数设置。问题只在int4量化下出现,使用fp16精度全模型运行没有问题。

🎯

关键要点

  • 部署过程中遇到RuntimeError: Library cublasLt is not initialized的问题,原因是未安装cudatoolkit。
  • 解决方法是从英伟达官网下载安装cuda,注意conda自带的cuda版本功能受限。
  • 代码中需要设置device_map参数为'cuda',并将empty_init设置为False,以避免自动检测错误。
  • 问题主要出现在int4量化下,fp16精度全模型运行没有问题。
  • 全精度4070显存占用11.3GB,而int4量化占用5.7GB,速度和占用总体表现良好。
➡️

继续阅读