Inference of Large Models Using Triton Server and TensorRT-LLM in Containers
原文英文,约1400词,阅读约需5分钟。发表于: 。1. TensorRT-LLM 编译模型 1.1 TensorRT-LLM 简介 使用 TensorRT 时,通常需要将模型转换为 ONNX 格式,再将 ONNX 转换为 TensorRT 格式,然后在 TensorRT、Triton Server 中进行推理。 但这个转换过程并不简单,经常会遇到各种报错,需要对模型结构、平台算子有一定的掌握,具备转换和调试能力。而 TensorRT-LLM 的目标
TensorRT-LLM是一个用于将模型转换为TensorRT格式的工具,支持多种显卡。使用TensorRT-LLM编译模型后,模型的RougeLsum指标有所下降,但推理速度有较大提升。Triton Server是一个支持多种后端的推理框架,包括TensorRT-LLM,可以进行批量推理和流水线并行推理。可以通过Triton Server的GRPC接口进行推理测试,并通过监控指标评估推理质量。