小红花·文摘 - 小红花技术领袖俱乐部

TensorRT-LLM是一个简化模型转换为TensorRT格式的工具，支持特定的GPU模型，旨在更轻松地在TensorRT上运行大型模型。文章提供了配置编译环境和生成TensorRT格式模型的说明。它还解释了如何使用Rouge指标测试推理和评估模型的性能。文章还介绍了Triton Server，一个可扩展的推理框架，支持多个后端，包括TensorRT-LLM。它解释了如何使用Triton Server与TensorRT-LLM进行配置和使用，包括模型加载和版本控制。最后，它演示了如何启动推理服务，进行客户端调用，并使用Grafana监控性能指标。

容器下在 Triton Server 中使用 TensorRT-LLM 进行推理

陈少文的博客 ·

TensorRT-LLM是一个用于将模型转换为TensorRT格式的工具，支持多种显卡。使用TensorRT-LLM编译模型后，模型的RougeLsum指标有所下降，但推理速度有较大提升。Triton Server是一个支持多种后端的推理框架，包括TensorRT-LLM，可以进行批量推理和流水线并行推理。可以通过Triton Server的GRPC接口进行推理测试，并通过监控指标评估推理质量。

容器下使用 Triton Server 和 TensorRT-LLM 进行大模型推理

陈少文的博客 ·

ZGC是Java垃圾收集技术的最前沿，从JDK11作为试验特性推出以来一直在发展中。从JDK14开始支持Windows，在JDK15中已经可以正式投入生产使用。最新的JDK开源库中已经出现了分代收集的ZGC代码，预计不久的将来会正式发布。

记录TritonServer部署多模型到多GPU踩坑 | 京东云技术团队

京东科技开发者 ·