陈少文的博客 ·

NVIDIA RTX 5090 推理测试

💡 原文中文，约7900字，阅读约需19分钟。

📝

内容提要

本文介绍了在NVIDIA GeForce RTX 5090上安装和配置驱动程序及推理框架（如TLLM、VLLM和SGLANG），提供了详细的命令和环境设置，并测试了不同模型的性能和显存占用。

🎯

关键要点

安装NVIDIA GeForce RTX 5090驱动程序，下载地址为https://www.nvidia.com/en-us/drivers/
使用命令行安装驱动并查看显卡状态，使用nvidia-smi命令。
开启持久模式以提高显卡性能，查看拓扑结构以了解GPU之间的关系。
启动TLLM环境，配置Qwen2.5-7B-Instruct和Qwen2.5-VL-7B-Instruct模型。
使用VLLM环境，配置Qwen2.5-7B-Instruct和Qwen2.5-VL-7B-Instruct模型，注意版本兼容性。
启动SGLANG环境，针对5090提供优化版本，配置Qwen2.5-7B-Instruct和Qwen2.5-VL-7B-Instruct模型。
测试不同框架的显存占用情况，记录各框架的显存使用量。
设置环境变量以便快速切换端口，测试Qwen2.5-7B-Instruct和Qwen2.5-VL-7B-Instruct模型的功能。
进行性能测试，记录不同框架的QPS和token流速，比较各框架的性能表现。

❓

延伸问答

如何安装NVIDIA GeForce RTX 5090的驱动程序？

访问https://www.nvidia.com/en-us/drivers/下载对应的驱动版本，然后使用命令bash NVIDIA-Linux-x86_64-580.76.05.run进行安装。

如何查看NVIDIA RTX 5090的显卡状态？

使用命令nvidia-smi可以查看显卡的状态和性能信息。

如何配置TLLM环境以使用Qwen2.5模型？

使用命令启动TLLM环境，并配置Qwen2.5-7B-Instruct模型，命令示例为export CUDA_VISIBLE_DEVICES=0 trtllm-serve /data/models/Qwen2.5-7B-Instruct。

VLLM环境与TLLM环境有什么区别？

VLLM环境和TLLM环境都用于模型推理，但VLLM使用不同的镜像和配置，性能表现相似但可能在某些情况下有所不同。

如何测试不同推理框架的显存占用？

使用nvidia-smi命令可以查看各个框架的显存占用情况，并记录显存使用量。

在性能测试中，tllm的QPS表现如何？

在性能测试中，tllm的QPS为24，表现优于sglang和vllm。

🏷️

继续阅读

3个月手搓Gamma架构，这个团队打造出了场景白盒化推理的“下一代内容OS”
AI内容创作正从生成模式转向任务执行模式，Pi系统通过结合AI生成与用户编辑，实现内容创作的可编辑化和系统化，提升协作效率，支持多种格式导出，推动内容生产...
《面向移动终端的超高清视频分发格式规范》标准解读
国家广播电视总局发布了GY/T 427—2026标准，旨在规范移动终端超高清视频分发，提升用户体验，支持国产HDR技术，并明确终端解码能力要求。节目平台需...
介绍Qt智能开发技能
今天发布了Qt开发的首批智能技能，旨在提高Qt代码的编写、文档和审查效率。这些新技能包括Qt C++和QML代码审查、文档生成及QML编码，能够自动检测代...
取之有度，用之有节-从Harness视角破解Agent应用Token爆炸难题
本文探讨了OpenClaw框架中的Token爆炸问题及其解决方案。随着用户增加，Token消耗激增，文章分析了Token浪费的原因，包括注入型、重复型和黑...
MuleRun（骡子快跑）首发灰测HappyHorse模型，支持用户7×24小时调用
MuleRun推出了自进化个人AI，用户可以通过输入提示词调用阿里巴巴的HappyHorse 1.0视频生成模型，支持多种内容生产场景。该平台提供独立云端...
黑神话：悟空全球音乐会门票火爆开售
2026年4月28日——《黑神话：悟空》的开发和发行团队游戏科学正式公布了2026年度音乐会全球巡演的日程计划。了解详情与购买门票，可访问黑神话官方微博账...