Amazon Inf2 上的 DeepSeek-R1 蒸馏模型：监控与评估实践

客户部署自己的大模型时，常常会遇到如何评估模型部署的性能和如何调优的问题，本篇主要针对如何评估性能进行讨论。基于 vllm 部署的模型，通过 Prometheus 和 Grafana 如何取得模型推理的性能参数，以及如何解读这些参数进行讨论。本文采用 inferentia2 作为测试环境，因为本篇的目的主要是解读性能参数，在这篇里不会讨论 inferentia2 的规格和运行配置进行优化。

DeepSeek-R1模型将在2025年春节发布，用户可通过亚马逊云科技多种方式部署。文章探讨了如何评估模型推理性能，使用Inferentia2作为测试环境，并介绍了vLLM与NxD推理库的集成与监控方法，强调了性能指标的重要性。

DeepSeek-R1 Inferentia2 NxD vLLM 推理性能