NVIDIA RTX 5090 推理测试

💡 原文中文,约7900字,阅读约需19分钟。
📝

内容提要

本文介绍了在NVIDIA GeForce RTX 5090上安装和配置驱动程序及推理框架(如TLLM、VLLM和SGLANG),提供了详细的命令和环境设置,并测试了不同模型的性能和显存占用。

🎯

关键要点

  • 安装NVIDIA GeForce RTX 5090驱动程序,下载地址为https://www.nvidia.com/en-us/drivers/

  • 使用命令行安装驱动并查看显卡状态,使用nvidia-smi命令。

  • 开启持久模式以提高显卡性能,查看拓扑结构以了解GPU之间的关系。

  • 启动TLLM环境,配置Qwen2.5-7B-Instruct和Qwen2.5-VL-7B-Instruct模型。

  • 使用VLLM环境,配置Qwen2.5-7B-Instruct和Qwen2.5-VL-7B-Instruct模型,注意版本兼容性。

  • 启动SGLANG环境,针对5090提供优化版本,配置Qwen2.5-7B-Instruct和Qwen2.5-VL-7B-Instruct模型。

  • 测试不同框架的显存占用情况,记录各框架的显存使用量。

  • 设置环境变量以便快速切换端口,测试Qwen2.5-7B-Instruct和Qwen2.5-VL-7B-Instruct模型的功能。

  • 进行性能测试,记录不同框架的QPS和token流速,比较各框架的性能表现。

🔎

延伸解读

驱动安装的重要性

在使用NVIDIA GeForce RTX 5090进行推理测试时,正确安装驱动程序至关重要。驱动程序的版本直接影响显卡的性能和稳定性,确保使用最新版本可以避免兼容性问题,提升整体运行效率。

显存占用与性能关系

不同推理框架在显存占用上存在显著差异,这直接影响到模型的性能表现。例如,TLLM框架的显存占用最高,达到31016MiB,而VLLM则相对较低。选择合适的框架时,需考虑显存限制与性能需求的平衡。

环境配置的兼容性

在配置推理环境时,注意不同模型与框架的版本兼容性非常重要。某些模型在特定版本的框架下可能无法正常加载,导致错误。因此,建议在部署前仔细查阅相关文档,确保环境配置的正确性。

延伸问答

如何安装NVIDIA GeForce RTX 5090的驱动程序?

访问https://www.nvidia.com/en-us/drivers/下载对应的驱动版本,然后使用命令bash NVIDIA-Linux-x86_64-580.76.05.run进行安装。

如何查看NVIDIA RTX 5090的显卡状态?

使用命令nvidia-smi可以查看显卡的状态和性能信息。

如何配置TLLM环境以使用Qwen2.5模型?

使用命令启动TLLM环境,并配置Qwen2.5-7B-Instruct模型,命令示例为export CUDA_VISIBLE_DEVICES=0 trtllm-serve /data/models/Qwen2.5-7B-Instruct。

VLLM环境与TLLM环境有什么区别?

VLLM环境和TLLM环境都用于模型推理,但VLLM使用不同的镜像和配置,性能表现相似但可能在某些情况下有所不同。

如何测试不同推理框架的显存占用?

使用nvidia-smi命令可以查看各个框架的显存占用情况,并记录显存使用量。

在性能测试中,tllm的QPS表现如何?

在性能测试中,tllm的QPS为24,表现优于sglang和vllm。

🏷️

标签

➡️

继续阅读