小红花·文摘

本文探讨了现代推理引擎的选择，分析了vLLM、SGLang、TensorRT-LLM等八大引擎的架构、性能和生态。提供了基于硬件和场景的选型决策树，强调了各引擎在KV缓存管理、调度和量化支持等方面的差异，并指出了未来的发展趋势和社区现状。

【大模型基础设施工程】13：vLLM / SGLang / TensorRT-LLM / TGI 对比

土法炼钢兴趣小组的博客 ·

告别推理时间忽高忽低！TensorRT 性能优化完全指南

dotNET跨平台 ·

TensorRT插件通过版本和命名空间扩展功能，简化自定义层与插件的映射。注册插件时需指定名称、版本和命名空间，以避免冲突。TensorRT 10引入新接口，硬编码命名空间，确保插件在反序列化时正确匹配。

TensorRT插件版本与命名空间

Lei Mao's Log Book ·

YOLO系列算法在目标检测中表现出色，YOLOv8的发布进一步提升了性能。基于WinForm的项目实现了YOLOv8模型的高效部署，支持多种推理后端，用户可通过图形界面轻松操作，满足实时检测需求，增强了模型的实用性和可用性。

C# 部署 Yolov8 全攻略：OpenVINO 与 TensorRT 双引擎加速

dotNET跨平台 ·

NVIDIA TensorRT提升Stable Diffusion 3.5在NVIDIA GeForce RTX和RTX PRO GPU上的性能

NVIDIA Blog ·

本文介绍了TensorRT中静态插件与动态插件的区别。静态插件在库加载时注册，生命周期与库相关；动态插件则在运行时按需注册，更加灵活，用户可控制注册时机。

TensorRT 静态插件与动态插件的比较

Lei Mao's Log Book ·

本文介绍了如何访问不同版本的TensorRT文档和API参考，包括NVIDIA TensorRT文档档案和最新文档，提供特定版本的URL模式和示例链接，涵盖C++和Python API参考。此外，还提到TensorRT在NVIDIA DRIVE OS上的应用开发及其文档位置。

TensorRT文档和API参考

Lei Mao's Log Book ·

使用TensorRT部署YOLO模型的流程包括模型转换（PyTorch→ONNX→TensorRT）、集成TensorRT-YOLO工具和性能优化。最佳实践建议采用FP16量化、动态批处理和内存管理，以提高推理速度和精度。提供了Python和C++代码示例，帮助用户理解操作。

【推理加速】TensorRT C++ 部署YOLO11全系模型

gloomyfish ·

在TensorRT 10之前，隐式量化无法自定义缩放因子。本文介绍了一种技巧，允许用户通过量化和反量化权重张量来实现自定义缩放因子，从而确保量化效果接近预期。

TensorRT 隐式权重量化

Lei Mao's Log Book ·

生成式推荐系统利用大语言模型（LLM）简化推荐流程，提升效果，克服传统系统局限。其优势包括流程简化、知识融合和规模效应。京东在广告推荐和搜索中成功应用生成式召回，显著提高点击率和消费。未来将继续优化模型规模和用户行为输入，以进一步提升推荐效果。

京东广告生成式召回基于 NVIDIA TensorRT-LLM 的推理加速实践

京东科技开发者 ·

贾扬清点赞：3K star量的SGLang上新，加速Llama 405B推理秒杀vLLM、TensorRT-LLM

机器之心 ·

这篇文章介绍了一个基于TensorRT和OpenCV的yolov8目标检测演示程序。程序可以进行单图推理和视频推理，并且提供了预处理、推理和后处理的时间统计。

C# yolov8 TensorRT Demo

dotNET跨平台 ·

本文介绍了使用TensorRT加速PyTorch量化模型的方法，包括量化模型导出为ONNX格式，修复ONNX模型图以适应TensorRT解析器，并构建为TensorRT引擎。对比了FP16和INT8 ResNet18 TensorRT引擎的推理延迟和准确性。

PyTorch Eager 模式量化的 TensorRT 加速

Lei Mao's Log Book ·

本文介绍了如何使用TensorRT Python API在几行代码中运行预构建的TensorRT引擎和自定义插件进行推理验证。通过使用Python丰富的数据操作和可视化库，可以更方便地验证TensorRT引擎的正确性。文章提供了一些Python实用工具和示例代码，展示了如何管理输入和输出张量的内存缓冲区，并进行推理操作。最后，文章展示了如何加载引擎和插件，并运行推理验证。

释放巅峰性能：TensorRT加速RTX PC和工作站上的AI

NVIDIA Blog ·

TensorRT-LLM是NVIDIA推出的大语言模型（LLM）推理优化框架，通过量化、In-Flight Batching、Attention和Graph Rewriting等技术提升LLM模型推理效率。本文介绍了如何基于阿里云容器服务ACK的云原生AI套件，利用TensorRT-LLM优化LLM模型推理的实战体验。

大语言模型推理提速，TensorRT-LLM 高性能推理实践

阿里云云栖号 ·

TensorRT是一个用于在NVIDIA GPU上进行高性能推理加速的C++库，支持主流深度学习框架如Caffe、TensorFlow、PyTorch和MXNet。TensorRT通过优化原理提高推理性能，包括合并层、量化、kernel自动调优、动态张量显存和多流并行。转换PyTorch模型为ONNX格式可使用trace或script方法，转换TensorFlow模型需要先转为pb格式再转为TensorRT。转换模型为TensorRT需要下载模型、转换脚本和安装相关依赖。使用TensorRT-LLM进行转换可以获得更好的转换成功率和效率。

使用 TensorRT 加速模型推理

陈少文的博客 ·

TensorRT是一种高性能的深度学习推理SDK，可以在NVIDIA GPU上加速深度学习推理。本文介绍了如何为TensorRT构建Docker镜像，包括下载TensorRT SDK、创建Dockerfile、构建Docker镜像和运行Docker容器等步骤。通过构建TensorRT引擎来验证安装是否正确。

在 Docker 中使用 TensorRT

Lei Mao's Log Book ·

TensorRT-LLM是一个简化模型转换为TensorRT格式的工具，支持特定的GPU模型，旨在更轻松地在TensorRT上运行大型模型。文章提供了配置编译环境和生成TensorRT格式模型的说明。它还解释了如何使用Rouge指标测试推理和评估模型的性能。文章还介绍了Triton Server，一个可扩展的推理框架，支持多个后端，包括TensorRT-LLM。它解释了如何使用Triton Server与TensorRT-LLM进行配置和使用，包括模型加载和版本控制。最后，它演示了如何启动推理服务，进行客户端调用，并使用Grafana监控性能指标。

容器下在 Triton Server 中使用 TensorRT-LLM 进行推理

陈少文的博客 ·

【大模型基础设施工程】13：vLLM / SGLang / TensorRT-LLM / TGI 对比

告别推理时间忽高忽低！TensorRT 性能优化完全指南

TensorRT插件版本与命名空间

C# 部署 Yolov8 全攻略：OpenVINO 与 TensorRT 双引擎加速

NVIDIA TensorRT提升Stable Diffusion 3.5在NVIDIA GeForce RTX和RTX PRO GPU上的性能

TensorRT 静态插件与动态插件的比较

TensorRT文档和API参考

【推理加速】TensorRT C++ 部署YOLO11全系模型

TensorRT 隐式权重量化

京东广告生成式召回基于 NVIDIA TensorRT-LLM 的推理加速实践

如何使用TensorRT优化和部署ONNX模型

贾扬清点赞：3K star量的SGLang上新，加速Llama 405B推理秒杀vLLM、TensorRT-LLM

C# yolov8 TensorRT Demo

PyTorch Eager 模式量化的 TensorRT 加速

TensorRT Python 推理

释放巅峰性能：TensorRT加速RTX PC和工作站上的AI

大语言模型推理提速，TensorRT-LLM 高性能推理实践

使用 TensorRT 加速模型推理

在 Docker 中使用 TensorRT

容器下在 Triton Server 中使用 TensorRT-LLM 进行推理