小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
沉浸式翻译 immersive translate
Dify.AI

vLLM团队官宣创业:融资1.5亿美元,清华特奖游凯超成为联创

机器之心
机器之心 · 2026-01-23T01:37:37Z
在AMD GPU上构建混合模型与vLLM-SR

我们正在构建混合模型(MoM)系统,以提升大型语言模型(LLM)的集体智能。核心问题包括捕捉请求与响应信号、优化模型协作和确保系统安全。通过vLLM语义路由器,我们展示了在AMD GPU上实时路由查询的能力,支持多种模型和信号类型。MoM架构通过智能调度和能力匹配,实现高效的AI部署。

在AMD GPU上构建混合模型与vLLM-SR

vLLM Blog
vLLM Blog · 2026-01-23T00:00:00Z

更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/vLLM 是一款专为大语言模型推理加速而设计的框架,实现了。内存几乎零浪费,解决了。

【vLLM 学习】Rlhf Utils

HyperAI超神经
HyperAI超神经 · 2026-01-19T10:56:14Z

vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。

【vLLM 学习】Rlhf Colocate

HyperAI超神经
HyperAI超神经 · 2026-01-14T02:41:23Z
vLLM新KV卸载连接器内部揭秘:智能内存传输以最大化推理吞吐量

vLLM 0.11.0引入KV缓存卸载功能,将缓存转移至CPU内存(DRAM),提升推理吞吐量。通过缓存KV值,降低计算需求,改善请求延迟和每节点吞吐量。新API支持异步加载和存储KV数据,优化GPU与CPU间的数据传输,显著提升性能。

vLLM新KV卸载连接器内部揭秘:智能内存传输以最大化推理吞吐量

vLLM Blog
vLLM Blog · 2026-01-08T00:00:00Z

vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。

【vLLM 学习】Rlhf

HyperAI超神经
HyperAI超神经 · 2026-01-07T07:42:44Z

Qwen2.5-32B和Qwen2.5-VL-32B是通义千问系列的两个大模型,分别为纯文本和多模态模型。部署前需确认硬件要求,建议使用Docker环境并安装NVIDIA工具包。模型支持中英文,具备强大推理能力,适用于图文问答和多模态推理。

vLLM 部署Qwen2.5 LLM & VLM 大模型

安志合的学习博客
安志合的学习博客 · 2026-01-05T13:16:14Z
vLLM语义路由器v0.1 Iris:首次重大发布

vLLM语义路由器v0.1(代号Iris)是一个智能路由平台,连接用户与多种AI模型。它通过信号捕捉和智能决策优化模型选择与安全过滤,支持无限扩展,性能显著提升,并具备实时幻觉检测功能,简化用户体验。

vLLM语义路由器v0.1 Iris:首次重大发布

vLLM Blog
vLLM Blog · 2026-01-05T00:00:00Z
介绍vLLM Playground:一个现代化的Web界面,用于管理和交互vLLM服务器

vLLM Playground是一个现代化的Web界面,简化了vLLM服务器的管理与交互,支持macOS、Linux和Kubernetes,提供零设置和一键操作,提升开发效率。

介绍vLLM Playground:一个现代化的Web界面,用于管理和交互vLLM服务器

vLLM Blog
vLLM Blog · 2026-01-02T00:00:00Z

源码 examples/offline_inference/reproduciblity.py。推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →vllm.hyper.ai/

【vLLM 学习】Reproduciblity

HyperAI超神经
HyperAI超神经 · 2025-12-30T08:28:57Z

In this post, we will describe the new KV cache offloading feature that was introduced in vLLM 0.11.0. We will focus on offloading to CPU memory (DRAM) and its benefits to improving overall...

Inside vLLM’s New KV Offloading Connector: Smarter Memory Transfer for Maximizing Inference Throughput

vLLM Blog
vLLM Blog · 2025-12-29T00:00:00Z
宣布 vllm.ai 网站上线及社区更新

vllm.ai 新网站上线,提供安装指导和社区活动信息,旨在减轻开发者负担。新邮箱用于简历提交和合作沟通,促进社区互动,强调社区支持的重要性。

宣布 vllm.ai 网站上线及社区更新

vLLM Blog
vLLM Blog · 2025-12-27T00:00:00Z

vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →。

【vLLM 学习】Profiling

HyperAI超神经
HyperAI超神经 · 2025-12-26T10:48:21Z
vLLM-Omni扩散缓存加速

vLLM-Omni更新了性能,支持Cache-DiT和TeaCache等缓存加速方法,显著提升扩散模型推理速度,图像生成速度提高1.5到2倍,质量损失极小。Cache-DiT在图像编辑任务中表现尤为突出,速度提升可达2.38倍。

vLLM-Omni扩散缓存加速

vLLM Blog
vLLM Blog · 2025-12-19T00:00:00Z

vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →源码此脚本用于分析 vLLM 在特定预填充(prefill)或解码(decode)令牌形状下的 TPU 性能表现。注意:实际运行的服务器会混合处理多种形状的预填充和解码请求。假设您已在使用 TPU 环境(本测试基于 TPU...

【vLLM 学习】vLLM TPU 分析

HyperAI超神经
HyperAI超神经 · 2025-12-17T09:21:56Z

vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →。

【vLLM 学习】Prithvi Geospatial Mae

HyperAI超神经
HyperAI超神经 · 2025-12-17T09:10:29Z

vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →。

【vLLM 学习】Prefix Caching

HyperAI超神经
HyperAI超神经 · 2025-12-17T08:54:42Z
vLLM大规模服务:DeepSeek @ 2.2k tok/s/H200与Wide-EP

v0.11.0版本标志着vLLM完全迁移至V1引擎架构,得益于1969名贡献者的支持。该版本优化了高性能LLM推理,提升了每个H200 GPU的吞吐量至2.2k tokens/s。

vLLM大规模服务:DeepSeek @ 2.2k tok/s/H200与Wide-EP

vLLM Blog
vLLM Blog · 2025-12-17T00:00:00Z
AMD × vLLM 语义路由器:共同构建系统智能

AMD与vLLM团队合作开发vLLM语义路由器(VSR),旨在提升AI系统架构,支持多模型智能路由。VSR通过信号路由、跨实例智能和企业级安全,确保AI系统在向AGI能力扩展时的安全与可信,推动AI技术的长期发展。

AMD × vLLM 语义路由器:共同构建系统智能

vLLM Blog
vLLM Blog · 2025-12-16T00:00:00Z

We are excited to release the NVIDIA Nemotron 3 Nano, supported by vLLM.

Run Highly Efficient and Accurate AI Agents with NVIDIA Nemotron 3 Nano on vLLM

vLLM Blog
vLLM Blog · 2025-12-15T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码