土法炼钢兴趣小组的博客 ·

TGI 对比

💡 原文中文，约25900字，阅读约需62分钟。

📝

内容提要

本文探讨了现代推理引擎的选择，分析了vLLM、SGLang、TensorRT-LLM等八大引擎的架构、性能和生态。提供了基于硬件和场景的选型决策树，强调了各引擎在KV缓存管理、调度和量化支持等方面的差异，并指出了未来的发展趋势和社区现状。

🎯

关键要点

本文探讨了现代推理引擎的选择，分析了vLLM、SGLang、TensorRT-LLM等八大引擎的架构、性能和生态。
提供了基于硬件和场景的选型决策树，强调了各引擎在KV缓存管理、调度和量化支持等方面的差异。
vLLM已成为绝大多数开源项目的默认后端，生态位强大。
SGLang作为后起之秀，具有高性能和结构化输出的优势。
TensorRT-LLM专注于Nvidia硬件，提供极致性能，但需要编译步骤。
TGI作为早期推理服务的先驱，因生态受损而逐渐式微。
国产引擎LMDeploy和MindIE在特定场景下表现良好，但社区活跃度较低。
文章总结了各引擎的核心技术对照，包括KV缓存管理、调度、注意力内核和量化支持。
最后，文章指出了未来的发展趋势和社区现状，强调了vLLM和SGLang的相互借鉴与发展。

❓

延伸问答

vLLM、SGLang和TensorRT-LLM的主要区别是什么？

vLLM是开源事实标准，支持多种硬件，SGLang专注于高性能和结构化输出，而TensorRT-LLM则专为Nvidia硬件优化，提供极致性能但需要编译步骤。

如何选择适合的推理引擎？

选择推理引擎时应考虑硬件类型、模型规模和具体应用场景，例如Nvidia GPU可选TensorRT-LLM或vLLM，华为昇腾则推荐MindIE。

SGLang的核心创新是什么？

SGLang的核心创新包括RadixAttention用于高效KV缓存管理和Zero-overhead batch scheduler，显著提高了性能。

TGI推理引擎为何逐渐式微？

TGI因生态受损、功能迭代慢于vLLM而逐渐式微，尽管其在HuggingFace内部仍有使用，但不再是社区默认选择。

vLLM的生态位如何？

vLLM已成为大多数开源项目的默认后端，广泛集成于多个服务框架中，生态位强大。

TensorRT-LLM的优势和代价是什么？

TensorRT-LLM在Nvidia硬件上提供极致性能和低延迟，但需要编译步骤，支持新模型的速度滞后于其他引擎。

🏷️

继续阅读

【大模型基础设施工程】12：PagedAttention 与 Continuous Batching
本文讨论了大语言模型（LLM）推理引擎的现代化技术，包括连续批处理和分页注意力。这些技术显著提升了LLM的吞吐量和GPU利用率，同时优化了显存利用率。文章...
【大模型基础设施工程】01：大模型基础设施全景 —— 训练、推理、RAG、Agent、观测
本文探讨了大模型基础设施的必要性与发展历程，强调大模型的特点，如计算和内存密集、状态重、故障常态化及高成本。系列文章将涵盖从硬件到应用的五层模型，帮助工程...
【大模型基础设施工程】02：GPU 计算入门——SM、Tensor Core、HBM、NVLink
本文探讨了GPU在大模型训练中的优势，特别是与CPU的对比。GPU通过大量弱核和简化控制实现高算力密度，适合处理大规模矩阵运算。分析了GPU的执行模型、内...
【大模型基础设施工程】03：CUDA 生态——cuBLAS、cuDNN、NCCL、Triton、CUTLASS
本文探讨了NVIDIA的CUDA生态系统，包括编译链、高层工具、分层结构、数学库（如cuBLAS和cuDNN）、通信库（如NCCL）及Triton DSL...
【大模型基础设施工程】04：互联与网络——NVLink、InfiniBand、RoCE 与国产替代
在2024-2026年，GPU训练的瓶颈转向网络互联。文章探讨了机内和跨机的互联技术，如NVLink、InfiniBand和RoCEv2，强调LLM训练对...
【大模型基础设施工程】05：训练全景：Pre-train、SFT、RLHF、DPO、蒸馏
大模型训练应视为流水线，分为数据工程、预训练、中训、微调和对齐等阶段。每个环节有不同的算力需求和挑战，数据质量至关重要。预训练需处理大量干净数据以确保模型...