小红花·文摘

月之暗面最强模型 Kimi-K2.6 正式开源 —— 附 vLLM 部署实战

探索云原生 ·

本文探讨了现代推理引擎的选择，分析了vLLM、SGLang、TensorRT-LLM等八大引擎的架构、性能和生态。提供了基于硬件和场景的选型决策树，强调了各引擎在KV缓存管理、调度和量化支持等方面的差异，并指出了未来的发展趋势和社区现状。

【大模型基础设施工程】13：vLLM / SGLang / TensorRT-LLM / TGI 对比

土法炼钢兴趣小组的博客 ·

vLLM是一个加速大语言模型推理的框架，解决了内存管理瓶颈。它提供Helm图表用于应用部署，支持配置、自动扩缩容和资源管理，允许用户灵活配置和管理自定义Kubernetes对象和多种模板。

【vLLM 学习】Helm 图表

HyperAI超神经 ·

Kthena + vLLM-Ascend：云原生大模型推理的编排与调度实践

华为云官方博客 ·

本文介绍了一个示例Python客户端，用于与API服务器交互，具备发送请求、处理响应和流式输出功能。请注意，该API仅用于演示，不适合生产环境。

【vLLM 学习】Api Client

HyperAI超神经 ·

Qwen3.5 选型 + vLLM 部署实战：从 0.8B 到 397B，哪款最适合你？

探索云原生 ·

vLLM 部署 GLM-5 实践指南

探索云原生 ·

该示例展示了如何使用vLLM在视觉语言模型上进行离线推理，处理多图像输入并生成文本，利用模型定义的对话模板。

【vLLM 学习】Vision Language Multi Image

HyperAI超神经 ·

本文介绍了如何使用vLLM进行离线推理，生成多模态嵌入，并展示了符合HuggingFace模型库规范的文本和图像提示格式。

【vLLM 学习】Vision Language Embedding

HyperAI超神经 ·

本文介绍了如何使用vLLM进行离线推理，特别是在视觉语言模型中采用正确的提示格式进行文本生成。示例展示了多种模型的提示格式和参数设置，以确保在不同GPU上有效运行。

【vLLM 学习】Vision Language

HyperAI超神经 ·

vLLM Triton 注意力后端深度解析

vLLM Blog ·

本文介绍了使用vllm库生成文本的代码示例，包括采样参数设置、提示和答案的定义，以及通过LLM模型生成文本并验证输出的过程。

【vLLM 学习】Tpu

HyperAI超神经 ·

当多模态开始卷落地：MiniCPM-o-4.5仅9B覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

HyperAI超神经 ·

超越移植：vLLM如何在AMD ROCm上协调高性能推理

vLLM Blog ·

在Amazon SageMaker AI和Amazon Bedrock上高效服务数十个微调模型与vLLM

vLLM Blog ·

本文介绍了使用torchrun进行张量并行推理的实验性支持，包括运行命令和示例代码，展示了如何创建提示和采样参数以生成输出，并提到跨进程传递控制消息的技巧。

【vLLM 学习】Torchrun Example

HyperAI超神经 ·

本文介绍了如何使用vLLM库进行引导式解码，包括候选选项、正则表达式、Pydantic模式和生成SQL查询。通过不同的引导参数，可以生成情感分类、电子邮件地址和JSON格式的汽车描述。

【vLLM 学习】Structured Outputs

HyperAI超神经 ·

推动vLLM WideEP和大规模服务在Blackwell平台上的成熟（第一部分）

vLLM Blog ·

vLLM 是一款加速大语言模型推理的框架，解决了内存管理瓶颈，实现了几乎零浪费的 KV 缓存内存，并提供在线教程和示例代码，方便用户学习。

【vLLM 学习】Simple Profiling

HyperAI超神经 ·

vLLM中的流式请求与实时API

vLLM Blog ·