NVIDIA RTX 5090 推理测试
💡
原文中文,约7900字,阅读约需19分钟。
📝
内容提要
本文介绍了在NVIDIA GeForce RTX 5090上安装和配置驱动程序及推理框架(如TLLM、VLLM和SGLANG),提供了详细的命令和环境设置,并测试了不同模型的性能和显存占用。
🎯
关键要点
- 安装NVIDIA GeForce RTX 5090驱动程序,下载地址为https://www.nvidia.com/en-us/drivers/
- 使用命令行安装驱动并查看显卡状态,使用nvidia-smi命令。
- 开启持久模式以提高显卡性能,查看拓扑结构以了解GPU之间的关系。
- 启动TLLM环境,配置Qwen2.5-7B-Instruct和Qwen2.5-VL-7B-Instruct模型。
- 使用VLLM环境,配置Qwen2.5-7B-Instruct和Qwen2.5-VL-7B-Instruct模型,注意版本兼容性。
- 启动SGLANG环境,针对5090提供优化版本,配置Qwen2.5-7B-Instruct和Qwen2.5-VL-7B-Instruct模型。
- 测试不同框架的显存占用情况,记录各框架的显存使用量。
- 设置环境变量以便快速切换端口,测试Qwen2.5-7B-Instruct和Qwen2.5-VL-7B-Instruct模型的功能。
- 进行性能测试,记录不同框架的QPS和token流速,比较各框架的性能表现。
❓
延伸问答
如何安装NVIDIA GeForce RTX 5090的驱动程序?
访问https://www.nvidia.com/en-us/drivers/下载对应的驱动版本,然后使用命令bash NVIDIA-Linux-x86_64-580.76.05.run进行安装。
如何查看NVIDIA RTX 5090的显卡状态?
使用命令nvidia-smi可以查看显卡的状态和性能信息。
如何配置TLLM环境以使用Qwen2.5模型?
使用命令启动TLLM环境,并配置Qwen2.5-7B-Instruct模型,命令示例为export CUDA_VISIBLE_DEVICES=0 trtllm-serve /data/models/Qwen2.5-7B-Instruct。
VLLM环境与TLLM环境有什么区别?
VLLM环境和TLLM环境都用于模型推理,但VLLM使用不同的镜像和配置,性能表现相似但可能在某些情况下有所不同。
如何测试不同推理框架的显存占用?
使用nvidia-smi命令可以查看各个框架的显存占用情况,并记录显存使用量。
在性能测试中,tllm的QPS表现如何?
在性能测试中,tllm的QPS为24,表现优于sglang和vllm。
➡️