小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
KVarN:华为用于KVCache量化的原生vLLM后端

华为开源的KVarN是一种KV Cache量化技术,通过Hadamard旋转和双轴方差归一化,有效解决大模型推理中的显存瓶颈。该技术在2-bit量化下保持接近FP16的精度,显存占用降低至原来的三分之一到五分之一,吞吐量超越FP16,且无需校准,已集成至vLLM框架。

KVarN:华为用于KVCache量化的原生vLLM后端

极道
极道 · 2026-06-04T22:18:00Z

本文介绍了如何在内网升级vLLM及AI模型。建议定期更新vLLM以获取新特性,通过简单命令安装新版vLLM,并使用huggingface-cli下载新模型。将新环境和模型打包后,部署到内网机器上,注意保持路径一致,避免不兼容问题。最终成功部署了Qwen 3.6模型。

内网升级vLLM及模型教程

tlanyan
tlanyan · 2026-06-02T03:28:19Z
vLLM的Rust前端PR了,预处理吞吐量直接翻了5倍!

在新加坡的 PyTorch 会议上,Bugen Zhao 介绍了 vLLM 团队用 Rust 重写 Python 前端的工作,以解决高并发下的性能瓶颈。Rust 前端的吞吐量提升约 5.16 倍,CPU 占用降低,长尾延迟收敛,用户无需额外操作,Rust 二进制文件已打包进 Python Wheel,支持主要 API。

vLLM的Rust前端PR了,预处理吞吐量直接翻了5倍!

迷途小书童
迷途小书童 · 2026-05-31T10:37:43Z
使用vLLM + Qwen3.5部署内网AI笔记

本文介绍了如何在内网使用vLLM和Qwen3.5部署AI模型。部署环境要求为NVIDIA A100/V100 GPU和Ubuntu 22.04 LTS系统。首先安装GPU驱动和CUDA Toolkit,然后通过UV管理Python环境并安装vLLM。接着,使用Hugging Face CLI下载Qwen3.5模型并配置运行参数。最后,利用Nginx进行负载均衡,以确保多GPU的高效使用。

使用vLLM + Qwen3.5部署内网AI笔记

tlanyan
tlanyan · 2026-05-25T10:39:20Z
理解 KV Cache:Attention、P/D 分离与 vLLM 的页式显存管理

本文探讨了大语言模型中KV Cache的产生与管理及其在推理过程中的重要性。KV Cache通过缓存历史K/V向量,优化生成过程并减少计算复杂度。Prefill阶段处理所有输入,而Decode阶段逐步生成输出,二者需分离以提升性能。vLLM采用页式内存管理,解决内存碎片问题,提升存储效率,确保高效的推理系统。

理解 KV Cache:Attention、P/D 分离与 vLLM 的页式显存管理

Steins;Lab
Steins;Lab · 2026-05-06T16:28:41Z

本文讨论了从单机到多节点分布式推理部署的架构变化,强调了流水线并行(PP)与张量并行(TP)的结合使用。通过与Ray框架集成,vLLM实现了高效的分布式推理,管理集群资源并协调任务。文章还介绍了Ray集群的搭建、vLLM的配置及生产环境的优化建议,包括网络通信、性能调优和监控等关键步骤。

vLLM集成Ray分布式推理模型部署实战

安志合的学习博客
安志合的学习博客 · 2026-05-05T12:50:03Z
月之暗面最强模型 Kimi-K2.6 正式开源 —— 附 vLLM 部署实战

Kimi-K2.6是Moonshot AI于4月20日发布的开源大语言模型,具备长上下文推理和多模态理解能力。文章介绍了模型的下载、部署及性能基准测试,强调其在多项评测中的优异表现。Kimi-K2.6支持工具调用和视觉-语言输入,适合多种应用场景。

月之暗面最强模型 Kimi-K2.6 正式开源 —— 附 vLLM 部署实战

探索云原生
探索云原生 · 2026-04-22T20:00:00Z

本文探讨了现代推理引擎的选择,分析了vLLM、SGLang、TensorRT-LLM等八大引擎的架构、性能和生态。提供了基于硬件和场景的选型决策树,强调了各引擎在KV缓存管理、调度和量化支持等方面的差异,并指出了未来的发展趋势和社区现状。

【大模型基础设施工程】13:vLLM / SGLang / TensorRT-LLM / TGI 对比

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

vLLM是一个加速大语言模型推理的框架,解决了内存管理瓶颈。它提供Helm图表用于应用部署,支持配置、自动扩缩容和资源管理,允许用户灵活配置和管理自定义Kubernetes对象和多种模板。

【vLLM 学习】Helm 图表

HyperAI超神经
HyperAI超神经 · 2026-04-07T02:51:27Z
Kthena + vLLM-Ascend:云原生大模型推理的编排与调度实践

本文探讨了Kthena与vLLM-Ascend在云原生大模型推理中的应用,解决了Kubernetes在分布式推理中的拓扑约束和状态感知缺失问题。Kthena通过智能调度和流量管理提升了推理效率,降低了延迟,简化了部署流程,展现了大模型服务平台的未来潜力。

Kthena + vLLM-Ascend:云原生大模型推理的编排与调度实践

华为云官方博客
华为云官方博客 · 2026-04-03T07:54:14Z

本文介绍了一个示例Python客户端,用于与API服务器交互,具备发送请求、处理响应和流式输出功能。请注意,该API仅用于演示,不适合生产环境。

【vLLM 学习】Api Client

HyperAI超神经
HyperAI超神经 · 2026-04-01T04:49:40Z
Qwen3.5 选型 + vLLM 部署实战:从 0.8B 到 397B,哪款最适合你?

本文介绍了阿里云开源大语言模型Qwen3.5的选择与部署,提供从0.8B到397B的多种规格,适用于不同场景。推荐型号包括27B、35B-A3B和397B-A17B,分别在代码能力、性价比和综合性能上表现优异。文章还说明了如何在Kubernetes环境中使用vLLM进行模型部署及性能测试。

Qwen3.5 选型 + vLLM 部署实战:从 0.8B 到 397B,哪款最适合你?

探索云原生
探索云原生 · 2026-03-30T20:00:00Z
vLLM 部署 GLM-5 实践指南

本文介绍了如何在生产环境中使用 vLLM 部署 GLM-5 模型,包括模型下载、镜像构建和 Docker 部署。GLM-5 是智谱 AI 最新的大语言模型,具备强大的推理能力。文章详细说明了安装 HuggingFace CLI、下载模型、构建自定义镜像及服务验证等步骤,并提供了性能基准测试结果,显示 INT4 版本在特定环境下的高吞吐量。

vLLM 部署 GLM-5 实践指南

探索云原生
探索云原生 · 2026-03-25T20:00:00Z

该示例展示了如何使用vLLM在视觉语言模型上进行离线推理,处理多图像输入并生成文本,利用模型定义的对话模板。

【vLLM 学习】Vision Language Multi Image

HyperAI超神经
HyperAI超神经 · 2026-03-24T06:44:00Z

本文介绍了如何使用vLLM进行离线推理,生成多模态嵌入,并展示了符合HuggingFace模型库规范的文本和图像提示格式。

【vLLM 学习】Vision Language Embedding

HyperAI超神经
HyperAI超神经 · 2026-03-18T09:00:03Z

本文介绍了如何使用vLLM进行离线推理,特别是在视觉语言模型中采用正确的提示格式进行文本生成。示例展示了多种模型的提示格式和参数设置,以确保在不同GPU上有效运行。

【vLLM 学习】Vision Language

HyperAI超神经
HyperAI超神经 · 2026-03-09T02:10:53Z
vLLM Triton 注意力后端深度解析

本文介绍了IBM研究、红帽和AMD团队开发的vLLM Triton注意力后端,旨在实现跨GPU平台的高性能。Triton是一种特定领域语言,支持用Python编写高效的GPU内核,兼容多种模型和硬件。通过优化内核设计和微基准测试,Triton后端在AMD、NVIDIA和Intel平台上表现优异,成为默认的注意力后端。

vLLM Triton 注意力后端深度解析

vLLM Blog
vLLM Blog · 2026-03-04T00:00:00Z

本文介绍了使用vllm库生成文本的代码示例,包括采样参数设置、提示和答案的定义,以及通过LLM模型生成文本并验证输出的过程。

【vLLM 学习】Tpu

HyperAI超神经
HyperAI超神经 · 2026-03-02T05:31:10Z
当多模态开始卷落地:MiniCPM-o-4.5仅9B覆盖实时图像理解与文本生成;vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

OpenBMB推出的MiniCPM-o-4.5模型仅用9B参数实现全模态能力,强调跨模态对齐与推理效率,适合主流GPU部署,具备高性能与轻量化优势。

当多模态开始卷落地:MiniCPM-o-4.5仅9B覆盖实时图像理解与文本生成;vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

HyperAI超神经
HyperAI超神经 · 2026-02-28T06:48:25Z
超越移植:vLLM如何在AMD ROCm上协调高性能推理

vLLM在AMD ROCm上提供七种高性能推理后端,支持复杂模型结构。ROCM_AITER_FA通过三路径路由优化混合工作负载,显著提高吞吐量,性能提升达到2.7-4.4倍,确保软件与硬件高效协作,适应多样化请求。

超越移植:vLLM如何在AMD ROCm上协调高性能推理

vLLM Blog
vLLM Blog · 2026-02-27T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码