小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了现代推理引擎的选择,分析了vLLM、SGLang、TensorRT-LLM等八大引擎的架构、性能和生态。提供了基于硬件和场景的选型决策树,强调了各引擎在KV缓存管理、调度和量化支持等方面的差异,并指出了未来的发展趋势和社区现状。

【大模型基础设施工程】13:vLLM / SGLang / TensorRT-LLM / TGI 对比

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
告别推理时间忽高忽低!TensorRT 性能优化完全指南

本文讨论了TensorRT推理时间不稳定的问题,主要由于GPU动态调频和虚拟内存管理不当。通过锁定GPU频率和关闭虚拟内存,可以显著提高推理性能,确保推理时间的稳定性。作者提供了适用于Windows系统和NVIDIA GPU的详细优化步骤。

告别推理时间忽高忽低!TensorRT 性能优化完全指南

dotNET跨平台
dotNET跨平台 · 2026-01-20T23:55:37Z

TensorRT插件通过版本和命名空间扩展功能,简化自定义层与插件的映射。注册插件时需指定名称、版本和命名空间,以避免冲突。TensorRT 10引入新接口,硬编码命名空间,确保插件在反序列化时正确匹配。

TensorRT插件版本与命名空间

Lei Mao's Log Book
Lei Mao's Log Book · 2025-09-08T07:00:00Z

YOLO系列算法在目标检测中表现出色,YOLOv8的发布进一步提升了性能。基于WinForm的项目实现了YOLOv8模型的高效部署,支持多种推理后端,用户可通过图形界面轻松操作,满足实时检测需求,增强了模型的实用性和可用性。

C# 部署 Yolov8 全攻略:OpenVINO 与 TensorRT 双引擎加速

dotNET跨平台
dotNET跨平台 · 2025-08-26T23:54:38Z
NVIDIA TensorRT提升Stable Diffusion 3.5在NVIDIA GeForce RTX和RTX PRO GPU上的性能

NVIDIA与Stability AI合作,通过量化技术将Stable Diffusion 3.5 Large模型的VRAM需求降低40%,并提升性能。新发布的TensorRT SDK加速AI图像生成,支持RTX GPU,简化开发流程。

NVIDIA TensorRT提升Stable Diffusion 3.5在NVIDIA GeForce RTX和RTX PRO GPU上的性能

NVIDIA Blog
NVIDIA Blog · 2025-06-12T13:00:17Z

本文介绍了TensorRT中静态插件与动态插件的区别。静态插件在库加载时注册,生命周期与库相关;动态插件则在运行时按需注册,更加灵活,用户可控制注册时机。

TensorRT 静态插件与动态插件的比较

Lei Mao's Log Book
Lei Mao's Log Book · 2025-06-05T07:00:00Z

本文介绍了如何访问不同版本的TensorRT文档和API参考,包括NVIDIA TensorRT文档档案和最新文档,提供特定版本的URL模式和示例链接,涵盖C++和Python API参考。此外,还提到TensorRT在NVIDIA DRIVE OS上的应用开发及其文档位置。

TensorRT文档和API参考

Lei Mao's Log Book
Lei Mao's Log Book · 2025-05-25T07:00:00Z

使用TensorRT部署YOLO模型的流程包括模型转换(PyTorch→ONNX→TensorRT)、集成TensorRT-YOLO工具和性能优化。最佳实践建议采用FP16量化、动态批处理和内存管理,以提高推理速度和精度。提供了Python和C++代码示例,帮助用户理解操作。

【推理加速】TensorRT C++ 部署YOLO11全系模型

gloomyfish
gloomyfish · 2025-05-22T12:45:02Z

在TensorRT 10之前,隐式量化无法自定义缩放因子。本文介绍了一种技巧,允许用户通过量化和反量化权重张量来实现自定义缩放因子,从而确保量化效果接近预期。

TensorRT 隐式权重量化

Lei Mao's Log Book
Lei Mao's Log Book · 2025-04-29T07:00:00Z

生成式推荐系统利用大语言模型(LLM)简化推荐流程,提升效果,克服传统系统局限。其优势包括流程简化、知识融合和规模效应。京东在广告推荐和搜索中成功应用生成式召回,显著提高点击率和消费。未来将继续优化模型规模和用户行为输入,以进一步提升推荐效果。

京东广告生成式召回基于 NVIDIA TensorRT-LLM 的推理加速实践

京东科技开发者
京东科技开发者 · 2025-01-14T06:55:52Z
如何使用TensorRT优化和部署ONNX模型

本文介绍了如何使用NVIDIA的TensorRT将ONNX模型转换为TensorRT引擎文件,以优化深度学习模型性能。通过trtexec工具,可以将模型转换为FP32、FP16和INT8精度,从而提升推理速度和内存效率。文章还讨论了转换过程中的设置、选项及测试转换后引擎文件性能的方法。

如何使用TensorRT优化和部署ONNX模型

DEV Community
DEV Community · 2024-11-15T14:24:52Z
贾扬清点赞:3K star量的SGLang上新,加速Llama 405B推理秒杀vLLM、TensorRT-LLM

Meta开源了最新的405B模型(Llama 3.1 405B)和SGLang Runtime v0.2,提高模型推理速度。SGLang在运行Llama 3.1 405B时表现优于vLLM和TensorRT-LLM,吞吐量达到TensorRT-LLM的2.1倍,vLLM的3.8倍。SGLang是一个用于大型语言模型和视觉语言模型的快速服务框架,完全开源,由纯Python编写。它在离线和在线场景下都能提供卓越的性能。

贾扬清点赞:3K star量的SGLang上新,加速Llama 405B推理秒杀vLLM、TensorRT-LLM

机器之心
机器之心 · 2024-07-27T15:08:43Z

这篇文章介绍了一个基于TensorRT和OpenCV的yolov8目标检测演示程序。程序可以进行单图推理和视频推理,并且提供了预处理、推理和后处理的时间统计。

C# yolov8 TensorRT Demo

dotNET跨平台
dotNET跨平台 · 2024-05-30T00:02:58Z

本文介绍了使用TensorRT加速PyTorch量化模型的方法,包括量化模型导出为ONNX格式,修复ONNX模型图以适应TensorRT解析器,并构建为TensorRT引擎。对比了FP16和INT8 ResNet18 TensorRT引擎的推理延迟和准确性。

PyTorch Eager 模式量化的 TensorRT 加速

Lei Mao's Log Book
Lei Mao's Log Book · 2024-05-24T07:00:00Z

本文介绍了如何使用TensorRT Python API在几行代码中运行预构建的TensorRT引擎和自定义插件进行推理验证。通过使用Python丰富的数据操作和可视化库,可以更方便地验证TensorRT引擎的正确性。文章提供了一些Python实用工具和示例代码,展示了如何管理输入和输出张量的内存缓冲区,并进行推理操作。最后,文章展示了如何加载引擎和插件,并运行推理验证。

TensorRT Python 推理

Lei Mao's Log Book
Lei Mao's Log Book · 2024-05-18T07:00:00Z
释放巅峰性能:TensorRT加速RTX PC和工作站上的AI

本文介绍了NVIDIA TensorRT软件开发工具包的优化,使其能够在RTX GPU上实现高性能生成式人工智能。TensorRT加速可在新的UL Procyon AI Image Generation基准测试中进行测试,测试结果显示与非TensorRT实现相比,GeForce RTX 4080 SUPER GPU的速度提升了50%。TensorRT还提供了更高效和精确的AI体验,性能通常是其他框架的两倍。此外,TensorRT还加速了Stable Video Diffusion等流行的生成式AI模型,提供了40%的加速。TensorRT还支持ControlNets,用户可以通过添加其他图像作为引导来控制生成式输出。TensorRT还在其他应用程序中实现了加速,如DaVinci Resolve和Topaz Labs的AI工具。通过在本地运行生成式AI,用户可以获得更低的延迟、节省成本、随时访问功能和数据隐私保护。

释放巅峰性能:TensorRT加速RTX PC和工作站上的AI

NVIDIA Blog
NVIDIA Blog · 2024-03-27T13:00:13Z

TensorRT-LLM是NVIDIA推出的大语言模型(LLM)推理优化框架,通过量化、In-Flight Batching、Attention和Graph Rewriting等技术提升LLM模型推理效率。本文介绍了如何基于阿里云容器服务ACK的云原生AI套件,利用TensorRT-LLM优化LLM模型推理的实战体验。

大语言模型推理提速,TensorRT-LLM 高性能推理实践

阿里云云栖号
阿里云云栖号 · 2024-02-21T06:38:08Z

TensorRT是一个用于在NVIDIA GPU上进行高性能推理加速的C++库,支持主流深度学习框架如Caffe、TensorFlow、PyTorch和MXNet。TensorRT通过优化原理提高推理性能,包括合并层、量化、kernel自动调优、动态张量显存和多流并行。转换PyTorch模型为ONNX格式可使用trace或script方法,转换TensorFlow模型需要先转为pb格式再转为TensorRT。转换模型为TensorRT需要下载模型、转换脚本和安装相关依赖。使用TensorRT-LLM进行转换可以获得更好的转换成功率和效率。

使用 TensorRT 加速模型推理

陈少文的博客
陈少文的博客 · 2024-02-06T00:00:00Z

TensorRT是一种高性能的深度学习推理SDK,可以在NVIDIA GPU上加速深度学习推理。本文介绍了如何为TensorRT构建Docker镜像,包括下载TensorRT SDK、创建Dockerfile、构建Docker镜像和运行Docker容器等步骤。通过构建TensorRT引擎来验证安装是否正确。

在 Docker 中使用 TensorRT

Lei Mao's Log Book
Lei Mao's Log Book · 2024-02-05T08:00:00Z

TensorRT-LLM是一个简化模型转换为TensorRT格式的工具,支持特定的GPU模型,旨在更轻松地在TensorRT上运行大型模型。文章提供了配置编译环境和生成TensorRT格式模型的说明。它还解释了如何使用Rouge指标测试推理和评估模型的性能。文章还介绍了Triton Server,一个可扩展的推理框架,支持多个后端,包括TensorRT-LLM。它解释了如何使用Triton Server与TensorRT-LLM进行配置和使用,包括模型加载和版本控制。最后,它演示了如何启动推理服务,进行客户端调用,并使用Grafana监控性能指标。

容器下在 Triton Server 中使用 TensorRT-LLM 进行推理

陈少文的博客
陈少文的博客 · 2024-02-03T08:05:48Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码