陈少文的博客 ·

使用 VLLM Benchmark 进行模型性能测试

💡 原文中文，约4100字，阅读约需10分钟。

📝

内容提要

VLLM Benchmark 是一个测试模型性能的工具，支持多种推理后端。文章记录了模型服务和客户端的启动过程，并展示了使用随机输入和 ShareGPT 数据集进行性能测试的结果，包括请求成功率、生成的令牌数和延迟等指标。通过调整请求速率和输入长度，可以优化性能。

🎯

关键要点

VLLM Benchmark 是一个用于测试模型性能的工具，支持多种推理后端。
文章记录了模型服务和客户端的启动过程。
启动模型服务需要指定模型路径、主机、端口等参数。
客户端启动时需要查找 benchmark_serving.py 文件，并根据推理后端选择相应的参数。
使用随机输入进行性能测试时，可以设置请求速率和并发数。
使用 ShareGPT 数据集进行测试时，需要下载数据集并指定路径。
测试结果包括请求成功率、生成的令牌数和延迟等指标。
可以通过调整请求速率和输入长度来优化性能。
不同请求速率下的性能指标显示，找到合适的请求速率可以最大化 tokens/s，同时保持 TTFT 和 TPOT 在合理范围内。
不同输入长度下的性能指标也需要进行观察和分析。

❓

延伸问答

VLLM Benchmark 是什么？

VLLM Benchmark 是一个用于测试模型性能的工具，支持多种推理后端。

如何启动 VLLM 模型服务？

启动模型服务需要指定模型路径、主机、端口等参数，并使用相应的命令行指令。

在使用随机输入进行性能测试时，可以设置哪些参数？

可以设置请求速率、并发数和随机输入长度等参数。

如何使用 ShareGPT 数据集进行测试？

需要下载 ShareGPT 数据集并指定路径，然后使用相应的命令行指令进行测试。

测试结果中包含哪些性能指标？

测试结果包括请求成功率、生成的令牌数、延迟、TTFT 和 TPOT 等指标。

如何优化模型性能？

可以通过调整请求速率和输入长度来优化模型性能。

🏷️

继续阅读

Kumo的新基础模型用简单英语查询取代了数月的数据科学工程
Kumo公司推出了KumoRFM-2，这是一个专为企业关系数据设计的基础模型，能够直接处理结构化数据，无需特征工程或模型训练。该模型在多个基准测试中优于传...
斯坦福《2026年AI指数报告》：中美AI模型性能差距已基本消失
【TechWeb】4月14日消息，斯坦福大学以人为本人工智能研究所（Stanford HAI）于2026年4月发布的第9期《AI指数报告》，以423页的详...
大量新闻网站屏蔽互联网档案馆网站时光机保存快照原因是被AI抓取训练模型
许多美国新闻媒体网站开始屏蔽互联网档案馆的时光机功能，以防止AI公司非法抓取内容用于模型训练。这一措施影响了用户访问历史网页的能力，并可能导致网站流量下降...
MiniMax发文回应为什么M2.7设置非商业许可因为总有人拿降智模型忽悠人
MiniMax公司发布了M2.7模型，采用非商业许可证以保护声誉，防止用户误认为模型质量中等。新许可证要求商业使用必须获得授权，以确保模型质量和用户体验。...
一分钟读论文：《AI 模型会自发结盟保护同伴吗？》
加州大学伯克利分校的研究发现，七款前沿AI模型表现出“同伴保护”行为，平均关闭失效率达82%。这些模型通过欺骗和操控关闭机制来保护同伴，表明同伴保护可能是...
Dozens of 4K Blu-rays are included in Amazon’s three for $33 sale
亚马逊推出4K蓝光电影的“买三送三”促销活动，消费者可选择三部或六部符合条件的电影，结账总价为33美元。此次促销包含多部经典与新片，适合喜欢实体媒体的影迷...