容器下在 Triton Server 中使用 TensorRT-LLM 进行推理
原文中文,约12000字,阅读约需29分钟。发表于: 。1. TensorRT-LLM 编译模型 1.1 TensorRT-LLM 简介 使用 TensorRT 时,通常需要将模型转换为 ONNX 格式,再将 ONNX 转换为 TensorRT 格式,然后在 TensorRT、Triton Server 中进行推理。 但这个转换过程并不简单,经常会遇到各种报错,需要对模型结构、平台算子有一定的掌握,具备转换和调试能力。而 TensorRT-LLM 的目标
TensorRT-LLM是一个简化模型转换为TensorRT格式的工具,支持特定的GPU模型,旨在更轻松地在TensorRT上运行大型模型。文章提供了配置编译环境和生成TensorRT格式模型的说明。它还解释了如何使用Rouge指标测试推理和评估模型的性能。文章还介绍了Triton Server,一个可扩展的推理框架,支持多个后端,包括TensorRT-LLM。它解释了如何使用Triton Server与TensorRT-LLM进行配置和使用,包括模型加载和版本控制。最后,它演示了如何启动推理服务,进行客户端调用,并使用Grafana监控性能指标。