NVIDIA RTX 5090 推理测试

💡 原文中文,约7900字,阅读约需19分钟。
📝

内容提要

本文介绍了在NVIDIA GeForce RTX 5090上安装和配置驱动程序及推理框架(如TLLM、VLLM和SGLANG),提供了详细的命令和环境设置,并测试了不同模型的性能和显存占用。

🎯

关键要点

  • 安装NVIDIA GeForce RTX 5090驱动程序,下载地址为https://www.nvidia.com/en-us/drivers/
  • 使用命令行安装驱动并查看显卡状态,使用nvidia-smi命令。
  • 开启持久模式以提高显卡性能,查看拓扑结构以了解GPU之间的关系。
  • 启动TLLM环境,配置Qwen2.5-7B-Instruct和Qwen2.5-VL-7B-Instruct模型。
  • 使用VLLM环境,配置Qwen2.5-7B-Instruct和Qwen2.5-VL-7B-Instruct模型,注意版本兼容性。
  • 启动SGLANG环境,针对5090提供优化版本,配置Qwen2.5-7B-Instruct和Qwen2.5-VL-7B-Instruct模型。
  • 测试不同框架的显存占用情况,记录各框架的显存使用量。
  • 设置环境变量以便快速切换端口,测试Qwen2.5-7B-Instruct和Qwen2.5-VL-7B-Instruct模型的功能。
  • 进行性能测试,记录不同框架的QPS和token流速,比较各框架的性能表现。

延伸问答

如何安装NVIDIA GeForce RTX 5090的驱动程序?

访问https://www.nvidia.com/en-us/drivers/下载对应的驱动版本,然后使用命令bash NVIDIA-Linux-x86_64-580.76.05.run进行安装。

如何查看NVIDIA RTX 5090的显卡状态?

使用命令nvidia-smi可以查看显卡的状态和性能信息。

如何配置TLLM环境以使用Qwen2.5模型?

使用命令启动TLLM环境,并配置Qwen2.5-7B-Instruct模型,命令示例为export CUDA_VISIBLE_DEVICES=0 trtllm-serve /data/models/Qwen2.5-7B-Instruct。

VLLM环境与TLLM环境有什么区别?

VLLM环境和TLLM环境都用于模型推理,但VLLM使用不同的镜像和配置,性能表现相似但可能在某些情况下有所不同。

如何测试不同推理框架的显存占用?

使用nvidia-smi命令可以查看各个框架的显存占用情况,并记录显存使用量。

在性能测试中,tllm的QPS表现如何?

在性能测试中,tllm的QPS为24,表现优于sglang和vllm。

➡️

继续阅读