GPU部署llama-cpp-python(llama.cpp通用)

💡 原文中文,约1500字,阅读约需4分钟。
📝

内容提要

本文介绍了在Ubuntu 20.04平台上部署llama-cpp-python的通用流程,包括安装cuda和选择cuBLAS加速后端代理。运行时需要加入参数,如n_threads和n_gpu_layers。多卡运行没有遇到大问题。报错解决方面,可以设置环境变量和升级cuda版本。

🎯

关键要点

  • 在Ubuntu 20.04上部署llama-cpp-python的流程包括安装cuda和选择cuBLAS加速后端。
  • 确保已安装cuda,使用命令nvcc -V检查版本。
  • 安装cuBLAS加速后端的命令为:export LLAMA_CUBLAS=1; CMAKE_ARGS='-DLLAMA_CUBLAS=on' FORCE_CMAKE=1 pip install llama-cpp-python。
  • 运行时需要加入参数n_threads和n_gpu_layers,n_threads表示使用的最大线程数,n_gpu_layers表示在GPU上运算的层数。
  • 多卡运行时,只需确保torch.cuda.is_available()和torch.cuda.device_count()正常即可。
  • 解决报错时,需设置CUDA_PATH环境变量以指向正确的cuda路径。
  • 如果出现版本过低的错误,需升级cuda版本至11.6或更高。
➡️

继续阅读