The DigitalOcean Blog ·

LLM推理基准测试 - 测量重要指标

💡 原文英文，约2900词，阅读约需11分钟。

📝

内容提要

生产级LLM推理面临复杂的系统挑战，需要硬件与软件的深度协同设计。推理过程分为预填充和解码两个阶段，前者计算密集，后者内存密集。关键指标包括首次令牌时间（TTFT）、每输出令牌时间（TPOT）和请求吞吐量（RPS）。优化需在延迟、吞吐量与并发性之间取得平衡，以提升性能并降低成本。

🎯

🔎

在LLM推理中，首次令牌时间（TTFT）、每输出令牌时间（TPOT）和请求吞吐量（RPS）是衡量性能的核心指标。TTFT直接影响用户体验，优化该指标需关注预填充阶段的计算效率。TPOT则反映解码阶段的内存带宽利用率，优化时需考虑硬件的内存特性。

生产级LLM推理需要硬件与软件的深度协同设计。不同GPU的性能差异（如FLOPs和内存带宽）会影响整体推理效率。因此，AI团队需不断调整软件以最大化硬件性能，确保在高成本环境中实现最佳的性价比。

基准测试不仅是一次性的评估，而是一个持续的优化过程。通过微基准测试，团队可以识别特定组件的性能瓶颈，从而进行针对性优化。这种方法有助于在不同硬件代际间保持性能一致性，确保系统在不断变化的环境中依然高效运行。

❓

LLM推理的两个主要阶段是预填充和解码。

首次令牌时间（TTFT）是用户提交提示到生成首个令牌之间的时间，直接影响用户的等待体验。

优化LLM推理性能需要在延迟、吞吐量与并发性之间取得平衡，并持续进行基准测试以识别性能瓶颈。

TPOT是每输出令牌时间，衡量文本流动速度；而ITL是两个连续令牌之间的时间间隔，反映解码性能的抖动。

E2EL是用户请求的总时长，影响实时推理工作负载的性能，尤其在延迟敏感的应用中至关重要。

基准测试的目的是识别和优化性能瓶颈，确保模型服务的优化。

🏷️