GPU部署llama-cpp-python(llama.cpp通用)
💡
原文中文,约1500字,阅读约需4分钟。
📝
内容提要
本文介绍了在Ubuntu 20.04平台上部署llama-cpp-python的通用流程,包括安装cuda和选择cuBLAS加速后端代理。运行时需要加入参数,如n_threads和n_gpu_layers。多卡运行没有遇到大问题。报错解决方面,可以设置环境变量和升级cuda版本。
🎯
关键要点
- 在Ubuntu 20.04上部署llama-cpp-python的流程包括安装cuda和选择cuBLAS加速后端。
- 确保已安装cuda,使用命令nvcc -V检查版本。
- 安装cuBLAS加速后端的命令为:export LLAMA_CUBLAS=1; CMAKE_ARGS='-DLLAMA_CUBLAS=on' FORCE_CMAKE=1 pip install llama-cpp-python。
- 运行时需要加入参数n_threads和n_gpu_layers,n_threads表示使用的最大线程数,n_gpu_layers表示在GPU上运算的层数。
- 多卡运行时,只需确保torch.cuda.is_available()和torch.cuda.device_count()正常即可。
- 解决报错时,需设置CUDA_PATH环境变量以指向正确的cuda路径。
- 如果出现版本过低的错误,需升级cuda版本至11.6或更高。
➡️