小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
月之暗面最强模型 Kimi-K2.6 正式开源 —— 附 vLLM 部署实战

Kimi-K2.6是Moonshot AI于4月20日发布的开源大语言模型,具备长上下文推理和多模态理解能力。文章介绍了模型的下载、部署及性能基准测试,强调其在多项评测中的优异表现。Kimi-K2.6支持工具调用和视觉-语言输入,适合多种应用场景。

月之暗面最强模型 Kimi-K2.6 正式开源 —— 附 vLLM 部署实战

探索云原生
探索云原生 · 2026-04-22T20:00:00Z

本文探讨了现代推理引擎的选择,分析了vLLM、SGLang、TensorRT-LLM等八大引擎的架构、性能和生态。提供了基于硬件和场景的选型决策树,强调了各引擎在KV缓存管理、调度和量化支持等方面的差异,并指出了未来的发展趋势和社区现状。

【大模型基础设施工程】13:vLLM / SGLang / TensorRT-LLM / TGI 对比

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

vLLM是一个加速大语言模型推理的框架,解决了内存管理瓶颈。它提供Helm图表用于应用部署,支持配置、自动扩缩容和资源管理,允许用户灵活配置和管理自定义Kubernetes对象和多种模板。

【vLLM 学习】Helm 图表

HyperAI超神经
HyperAI超神经 · 2026-04-07T02:51:27Z
Kthena + vLLM-Ascend:云原生大模型推理的编排与调度实践

本文探讨了Kthena与vLLM-Ascend在云原生大模型推理中的应用,解决了Kubernetes在分布式推理中的拓扑约束和状态感知缺失问题。Kthena通过智能调度和流量管理提升了推理效率,降低了延迟,简化了部署流程,展现了大模型服务平台的未来潜力。

Kthena + vLLM-Ascend:云原生大模型推理的编排与调度实践

华为云官方博客
华为云官方博客 · 2026-04-03T07:54:14Z

本文介绍了一个示例Python客户端,用于与API服务器交互,具备发送请求、处理响应和流式输出功能。请注意,该API仅用于演示,不适合生产环境。

【vLLM 学习】Api Client

HyperAI超神经
HyperAI超神经 · 2026-04-01T04:49:40Z
Qwen3.5 选型 + vLLM 部署实战:从 0.8B 到 397B,哪款最适合你?

本文介绍了阿里云开源大语言模型Qwen3.5的选择与部署,提供从0.8B到397B的多种规格,适用于不同场景。推荐型号包括27B、35B-A3B和397B-A17B,分别在代码能力、性价比和综合性能上表现优异。文章还说明了如何在Kubernetes环境中使用vLLM进行模型部署及性能测试。

Qwen3.5 选型 + vLLM 部署实战:从 0.8B 到 397B,哪款最适合你?

探索云原生
探索云原生 · 2026-03-30T20:00:00Z
vLLM 部署 GLM-5 实践指南

本文介绍了如何在生产环境中使用 vLLM 部署 GLM-5 模型,包括模型下载、镜像构建和 Docker 部署。GLM-5 是智谱 AI 最新的大语言模型,具备强大的推理能力。文章详细说明了安装 HuggingFace CLI、下载模型、构建自定义镜像及服务验证等步骤,并提供了性能基准测试结果,显示 INT4 版本在特定环境下的高吞吐量。

vLLM 部署 GLM-5 实践指南

探索云原生
探索云原生 · 2026-03-25T20:00:00Z

该示例展示了如何使用vLLM在视觉语言模型上进行离线推理,处理多图像输入并生成文本,利用模型定义的对话模板。

【vLLM 学习】Vision Language Multi Image

HyperAI超神经
HyperAI超神经 · 2026-03-24T06:44:00Z

本文介绍了如何使用vLLM进行离线推理,生成多模态嵌入,并展示了符合HuggingFace模型库规范的文本和图像提示格式。

【vLLM 学习】Vision Language Embedding

HyperAI超神经
HyperAI超神经 · 2026-03-18T09:00:03Z

本文介绍了如何使用vLLM进行离线推理,特别是在视觉语言模型中采用正确的提示格式进行文本生成。示例展示了多种模型的提示格式和参数设置,以确保在不同GPU上有效运行。

【vLLM 学习】Vision Language

HyperAI超神经
HyperAI超神经 · 2026-03-09T02:10:53Z
vLLM Triton 注意力后端深度解析

本文介绍了IBM研究、红帽和AMD团队开发的vLLM Triton注意力后端,旨在实现跨GPU平台的高性能。Triton是一种特定领域语言,支持用Python编写高效的GPU内核,兼容多种模型和硬件。通过优化内核设计和微基准测试,Triton后端在AMD、NVIDIA和Intel平台上表现优异,成为默认的注意力后端。

vLLM Triton 注意力后端深度解析

vLLM Blog
vLLM Blog · 2026-03-04T00:00:00Z

本文介绍了使用vllm库生成文本的代码示例,包括采样参数设置、提示和答案的定义,以及通过LLM模型生成文本并验证输出的过程。

【vLLM 学习】Tpu

HyperAI超神经
HyperAI超神经 · 2026-03-02T05:31:10Z
当多模态开始卷落地:MiniCPM-o-4.5仅9B覆盖实时图像理解与文本生成;vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

OpenBMB推出的MiniCPM-o-4.5模型仅用9B参数实现全模态能力,强调跨模态对齐与推理效率,适合主流GPU部署,具备高性能与轻量化优势。

当多模态开始卷落地:MiniCPM-o-4.5仅9B覆盖实时图像理解与文本生成;vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

HyperAI超神经
HyperAI超神经 · 2026-02-28T06:48:25Z
超越移植:vLLM如何在AMD ROCm上协调高性能推理

vLLM在AMD ROCm上提供七种高性能推理后端,支持复杂模型结构。ROCM_AITER_FA通过三路径路由优化混合工作负载,显著提高吞吐量,性能提升达到2.7-4.4倍,确保软件与硬件高效协作,适应多样化请求。

超越移植:vLLM如何在AMD ROCm上协调高性能推理

vLLM Blog
vLLM Blog · 2026-02-27T00:00:00Z
在Amazon SageMaker AI和Amazon Bedrock上高效服务数十个微调模型与vLLM

为解决多模型AI服务的闲置GPU成本问题,我们与vLLM社区合作开发了Multi-LoRA技术,允许多个模型共享同一GPU,优化MoE模型的推理性能。该技术通过保持原始权重不变,仅调整小型适配器,显著提升了输出速度并降低了延迟,适用于多个开源MoE模型,并已在Amazon SageMaker和Bedrock上实现。

在Amazon SageMaker AI和Amazon Bedrock上高效服务数十个微调模型与vLLM

vLLM Blog
vLLM Blog · 2026-02-26T00:00:00Z

本文介绍了使用torchrun进行张量并行推理的实验性支持,包括运行命令和示例代码,展示了如何创建提示和采样参数以生成输出,并提到跨进程传递控制消息的技巧。

【vLLM 学习】Torchrun Example

HyperAI超神经
HyperAI超神经 · 2026-02-25T07:43:46Z

本文介绍了如何使用vLLM库进行引导式解码,包括候选选项、正则表达式、Pydantic模式和生成SQL查询。通过不同的引导参数,可以生成情感分类、电子邮件地址和JSON格式的汽车描述。

【vLLM 学习】Structured Outputs

HyperAI超神经
HyperAI超神经 · 2026-02-09T03:28:47Z
推动vLLM WideEP和大规模服务在Blackwell平台上的成熟(第一部分)

vLLM团队在NVIDIA GB200平台上优化性能,实现26.2K预填TPGS和10.1K解码TPGS,较H200提升3-5倍。通过低精度操作、内核融合和权重卸载等技术,显著提升计算效率和带宽利用率。

推动vLLM WideEP和大规模服务在Blackwell平台上的成熟(第一部分)

vLLM Blog
vLLM Blog · 2026-02-03T00:00:00Z

vLLM 是一款加速大语言模型推理的框架,解决了内存管理瓶颈,实现了几乎零浪费的 KV 缓存内存,并提供在线教程和示例代码,方便用户学习。

【vLLM 学习】Simple Profiling

HyperAI超神经
HyperAI超神经 · 2026-02-02T03:49:41Z
vLLM中的流式请求与实时API

vLLM最近增加了对流式输入和实时WebSocket API的支持,以改善实时应用的推理能力。流式输入允许逐步处理输入并生成输出,减少延迟,提升用户体验。

vLLM中的流式请求与实时API

vLLM Blog
vLLM Blog · 2026-01-31T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码