土法炼钢兴趣小组的博客 ·

【大模型基础设施工程】11：推理引擎基础

💡 原文中文，约26300字，阅读约需63分钟。

📝

内容提要

本文探讨了大模型推理的工程差异，强调训练与推理的不同需求。推理分为Prefill和Decode两个阶段，前者关注计算吞吐，后者关注延迟。KV Cache的使用显著提高了推理效率，减少了计算复杂度。文章还介绍了Continuous Batching和Prefill/Decode分离的优势，强调了高并发场景下的显存管理和性能优化策略。

🎯

关键要点

训练与推理的工程差异显著，训练是离线任务，推理是在线服务。
推理分为Prefill和Decode两个阶段，前者关注计算吞吐，后者关注延迟。
KV Cache的使用显著提高了推理效率，降低了计算复杂度。
Continuous Batching和Prefill/Decode分离有助于优化高并发场景下的显存管理。
推理的SLO模型包括TTFT、TPOT和可用性等关键指标。
KV Cache的大小和管理对推理性能有重要影响，尤其是在长上下文和高并发场景中。
不同的推理引擎在处理Prefill和Decode时有不同的优化策略。
Chunked Prefill可以有效减少长请求对Decode的阻塞影响。
Prefix Caching可以显著提高多轮对话和系统提示的推理效率。
采样策略对生成质量和工程实现有重要影响，需根据具体场景进行调整。

❓

延伸问答

推理与训练的主要区别是什么？

推理是在线服务，关注延迟和实时响应；训练是离线任务，关注吞吐量和计算效率。

KV Cache在推理中有什么作用？

KV Cache显著提高了推理效率，减少了计算复杂度，允许在生成新token时重用历史计算结果。

Prefill和Decode阶段的主要区别是什么？

Prefill阶段一次性计算并填充KV Cache，关注计算吞吐；Decode阶段逐token生成，关注延迟。

Continuous Batching有什么优势？

Continuous Batching可以将多个请求的Decode合并成一个大batch，提高GPU利用率，减少延迟。

推理的SLO模型包含哪些关键指标？

推理的SLO模型包括TTFT、TPOT和可用性等关键指标，直接影响引擎的调参。

Chunked Prefill的作用是什么？

Chunked Prefill可以有效减少长请求对Decode的阻塞影响，提高整体推理效率。

🏷️

继续阅读

【可观测性工程】可观测性全景：Metrics、Logs、Traces、Profiles、Events 五大支柱
可观测性是现代系统管理的重要概念，包含指标、日志、追踪、性能剖析和事件五大支柱。这些支柱帮助工程师理解系统状态和故障原因，强调系统设计的属性。通过有效的数...
【大模型基础设施工程】01：大模型基础设施全景 —— 训练、推理、RAG、Agent、观测
本文探讨了大模型基础设施的必要性与发展历程，强调大模型的特点，如计算和内存密集、状态重、故障常态化及高成本。系列文章将涵盖从硬件到应用的五层模型，帮助工程...
Groundcover关注代理AI监控中的可见性缺口，瞄准多步骤工作流
Groundcover宣布扩展其AI可观察性服务，新增对Google Vertex AI的支持。该技术帮助软件工程团队追踪AI系统的决策过程，克服传统可观...
【大模型基础设施工程】02：GPU 计算入门——SM、Tensor Core、HBM、NVLink
本文探讨了GPU在大模型训练中的优势，特别是与CPU的对比。GPU通过大量弱核和简化控制实现高算力密度，适合处理大规模矩阵运算。分析了GPU的执行模型、内...
【大模型基础设施工程】03：CUDA 生态——cuBLAS、cuDNN、NCCL、Triton、CUTLASS
本文探讨了NVIDIA的CUDA生态系统，包括编译链、高层工具、分层结构、数学库（如cuBLAS和cuDNN）、通信库（如NCCL）及Triton DSL...
【大模型基础设施工程】04：互联与网络——NVLink、InfiniBand、RoCE 与国产替代
在2024-2026年，GPU训练的瓶颈转向网络互联。文章探讨了机内和跨机的互联技术，如NVLink、InfiniBand和RoCEv2，强调LLM训练对...