使用 VLLM Benchmark 进行模型性能测试

💡 原文中文,约4100字,阅读约需10分钟。
📝

内容提要

VLLM Benchmark 是一个测试模型性能的工具,支持多种推理后端。文章记录了模型服务和客户端的启动过程,并展示了使用随机输入和 ShareGPT 数据集进行性能测试的结果,包括请求成功率、生成的令牌数和延迟等指标。通过调整请求速率和输入长度,可以优化性能。

🎯

关键要点

  • VLLM Benchmark 是一个用于测试模型性能的工具,支持多种推理后端。
  • 文章记录了模型服务和客户端的启动过程。
  • 启动模型服务需要指定模型路径、主机、端口等参数。
  • 客户端启动时需要查找 benchmark_serving.py 文件,并根据推理后端选择相应的参数。
  • 使用随机输入进行性能测试时,可以设置请求速率和并发数。
  • 使用 ShareGPT 数据集进行测试时,需要下载数据集并指定路径。
  • 测试结果包括请求成功率、生成的令牌数和延迟等指标。
  • 可以通过调整请求速率和输入长度来优化性能。
  • 不同请求速率下的性能指标显示,找到合适的请求速率可以最大化 tokens/s,同时保持 TTFT 和 TPOT 在合理范围内。
  • 不同输入长度下的性能指标也需要进行观察和分析。

延伸问答

VLLM Benchmark 是什么?

VLLM Benchmark 是一个用于测试模型性能的工具,支持多种推理后端。

如何启动 VLLM 模型服务?

启动模型服务需要指定模型路径、主机、端口等参数,并使用相应的命令行指令。

在使用随机输入进行性能测试时,可以设置哪些参数?

可以设置请求速率、并发数和随机输入长度等参数。

如何使用 ShareGPT 数据集进行测试?

需要下载 ShareGPT 数据集并指定路径,然后使用相应的命令行指令进行测试。

测试结果中包含哪些性能指标?

测试结果包括请求成功率、生成的令牌数、延迟、TTFT 和 TPOT 等指标。

如何优化模型性能?

可以通过调整请求速率和输入长度来优化模型性能。

➡️

继续阅读