使用 VLLM Benchmark 进行模型性能测试
💡
原文中文,约4100字,阅读约需10分钟。
📝
内容提要
VLLM Benchmark 是一个测试模型性能的工具,支持多种推理后端。文章记录了模型服务和客户端的启动过程,并展示了使用随机输入和 ShareGPT 数据集进行性能测试的结果,包括请求成功率、生成的令牌数和延迟等指标。通过调整请求速率和输入长度,可以优化性能。
🎯
关键要点
- VLLM Benchmark 是一个用于测试模型性能的工具,支持多种推理后端。
- 文章记录了模型服务和客户端的启动过程。
- 启动模型服务需要指定模型路径、主机、端口等参数。
- 客户端启动时需要查找 benchmark_serving.py 文件,并根据推理后端选择相应的参数。
- 使用随机输入进行性能测试时,可以设置请求速率和并发数。
- 使用 ShareGPT 数据集进行测试时,需要下载数据集并指定路径。
- 测试结果包括请求成功率、生成的令牌数和延迟等指标。
- 可以通过调整请求速率和输入长度来优化性能。
- 不同请求速率下的性能指标显示,找到合适的请求速率可以最大化 tokens/s,同时保持 TTFT 和 TPOT 在合理范围内。
- 不同输入长度下的性能指标也需要进行观察和分析。
➡️