Chatglm3部署踩坑记录
💡
原文中文,约700字,阅读约需2分钟。
📝
内容提要
文章讲述了使用某软件时遇到的问题和解决方法,包括缺少cudatoolkit和代码中的device_map参数设置。问题只在int4量化下出现,使用fp16精度全模型运行没有问题。
🎯
关键要点
- 部署过程中遇到RuntimeError: Library cublasLt is not initialized的问题,原因是未安装cudatoolkit。
- 解决方法是从英伟达官网下载安装cuda,注意conda自带的cuda版本功能受限。
- 代码中需要设置device_map参数为'cuda',并将empty_init设置为False,以避免自动检测错误。
- 问题主要出现在int4量化下,fp16精度全模型运行没有问题。
- 全精度4070显存占用11.3GB,而int4量化占用5.7GB,速度和占用总体表现良好。
➡️