小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

vLLM是一个加速大语言模型推理的框架,解决了内存管理瓶颈。它提供Helm图表用于应用部署,支持配置、自动扩缩容和资源管理,允许用户灵活配置和管理自定义Kubernetes对象和多种模板。

【vLLM 学习】Helm 图表

HyperAI超神经
HyperAI超神经 · 2026-04-07T02:51:27Z
IBM、Red Hat和Google刚刚将Kubernetes蓝图捐赠给CNCF,用于大语言模型推理

IBM、Red Hat和Google Cloud在2026年KubeCon欧洲大会上宣布将开源推理框架llm-d捐赠给云原生计算基金会(CNCF)。llm-d旨在通过Kubernetes简化大语言模型的推理,支持多种加速器,提高效率并降低成本。该框架提供可重复的基准测试和兼容性,推动AI推理成为云原生基础设施的重要组成部分。

IBM、Red Hat和Google刚刚将Kubernetes蓝图捐赠给CNCF,用于大语言模型推理

The New Stack
The New Stack · 2026-03-24T15:20:01Z
DeepSeek新论文剧透V4新框架!用闲置网卡加速智能体推理性能

DeepSeek推出的DualPath推理框架通过引入存储至解码引擎的路径,解决了I/O瓶颈,离线推理吞吐量提升1.87倍,在线服务提升1.96倍,有效利用闲置带宽,显著降低延迟。

DeepSeek新论文剧透V4新框架!用闲置网卡加速智能体推理性能

量子位
量子位 · 2026-02-27T08:11:51Z

我正在开发一个纯 Rust、零依赖的音频 AI 推理框架 lele,专注于语音交互,支持高效的模型编译与优化,并提供多种音频特征提取功能。

lele: Rust 把 ONNX 模型编译成机器码的 AI 框架

Rust.cc
Rust.cc · 2026-01-28T06:40:09Z
轻量高性能的 LLM 推理框架,试试 Mini-SGLang

Mini-SGLang是一个轻量级、高性能的大语言模型推理框架,旨在简化复杂推理系统。它支持本地和在线部署,兼容OpenAI接口,具备高性能、可读性和多场景应用,适合大规模推理与测试。

轻量高性能的 LLM 推理框架,试试 Mini-SGLang

dotNET跨平台
dotNET跨平台 · 2026-01-03T00:01:34Z
Mini-SGLang - 一个轻量级高性能的大型语言模型推理框架…

Mini-SGLang是一个轻量级高性能推理框架,旨在简化大型语言模型的推理系统,支持本地和在线部署,提供OpenAI兼容API,适合大规模在线推理和批量测试。

Mini-SGLang - 一个轻量级高性能的大型语言模型推理框架…

云原生
云原生 · 2025-12-18T05:19:08Z
vLLM-Omni - 一种高性能、成本效益高的推理与服务框架

vLLM-Omni是一个高效的推理框架,支持文本、图像、视频和音频输入,具备低延迟执行能力。它适用于多模态助手、大规模媒体处理和实时多媒体应用,支持非自回归架构和并行生成模型。

vLLM-Omni - 一种高性能、成本效益高的推理与服务框架

云原生
云原生 · 2025-12-03T10:30:29Z

KTransformers是趋境科技与清华大学联合研发的高性能异构推理框架,专注于大模型推理。该框架通过CPU与GPU协同优化算力利用,提升推理效率,支持低算力环境下的大模型应用。其论文入选国际顶会SOSP 2025,获得全球认可,并与主流框架SGLang合作,推动开发者创新。

KTransformers入选计算机系统顶会、与主流框架合作,趋境&清华让「异构」成为推理新范式

量子位
量子位 · 2025-10-23T01:34:03Z
基于推理的异常检测框架:一种实时、可扩展和自动化的跨领域异常检测方法

本文介绍了一种实时检测大规模数据集异常的推理异常检测框架(RADF)。该框架利用自动化算法选择和超参数调优技术(mSelect),具备快速分类和根本原因确定的能力。实验结果显示,RADF在多个公共基准数据集上的AUC值超过0.85,优于现有模型,证明了其在异常检测中的有效性。

基于推理的异常检测框架:一种实时、可扩展和自动化的跨领域异常检测方法

Apple Machine Learning Research
Apple Machine Learning Research · 2025-10-08T00:00:00Z

本文介绍了在NVIDIA GeForce RTX 5090上安装和配置驱动程序及推理框架(如TLLM、VLLM和SGLANG),提供了详细的命令和环境设置,并测试了不同模型的性能和显存占用。

NVIDIA RTX 5090 推理测试

陈少文的博客
陈少文的博客 · 2025-09-09T00:00:00Z

vLLM 是一款优化的大语言模型推理框架,最新版本 v1.0 提升了推理速度和硬件利用率,支持多 GPU 并行推理,具备 PagedAttention 技术和灵活的 API 设计。未来将持续优化推理效率和扩展性。

【vLLM 学习】Mlpspeculator

HyperAI超神经
HyperAI超神经 · 2025-08-27T02:15:45Z

vLLM 是一款加速大语言模型推理的框架,解决了内存管理瓶颈,实现了 KV 缓存内存的零浪费。它支持多种量化技术和 LoRA 适配器,并提供离线推理的示例和使用指南。

【vLLM 学习】Lora With Quantization Inference

HyperAI超神经
HyperAI超神经 · 2025-08-13T02:22:53Z

vLLM 是一款加速大语言模型推理的框架,解决了内存管理瓶颈,实现了几乎零浪费的 KV 缓存。该框架支持 CPU 卸载和 LMCache,并提供示例代码和配置说明,方便用户进行实验和开发。

【vLLM 学习】Cpu Offload Lmcache

HyperAI超神经
HyperAI超神经 · 2025-06-06T12:25:28Z
OR算法+ML模型混合推理框架架构演进

调度系统通过GPU加速运筹学和机器学习算法,提升了性能和稳定性。为解决性能、稳定性和扩展性问题,采用TritonServer推理框架进行二次开发,优化计算任务调度。经过多次架构迭代,构建了高性能、可扩展的OR+ML混合推理框架,未来将支持不同GPU型号及多级缓存和分布式推理。

OR算法+ML模型混合推理框架架构演进

美团技术团队
美团技术团队 · 2025-05-12T00:00:00Z

vLLM是一个开源的大语言模型推理框架,采用PagedAttention机制优化KV缓存,提升了吞吐量和响应速度。2025年发布的v1版本重构了核心架构,增强了系统稳定性和推理效率,并支持多种调度特性。尽管仍在开发中,vLLM已成为热门项目,提供丰富的教程和模型案例,帮助用户快速上手。

vLLM 实战教程汇总,从环境配置到大模型部署,中文文档追踪重磅更新

HyperAI超神经
HyperAI超神经 · 2025-05-09T08:03:29Z

本研究提出了SeriesBench基准,旨在解决多模态大语言模型在理解复杂叙事剧集方面的不足。该基准包含105部剧集和28个任务,采用新标注方法和叙事推理框架,显示现有模型在叙事理解上仍面临挑战,并提供了提升性能的路径。

SeriesBench: A Benchmark for Narrative-Driven Series Understanding

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-30T00:00:00Z

本研究提出了“双引擎思维框架”(DEoT),旨在解决传统推理框架在开放式问题中的不足。实验结果表明,DEoT在复杂问题上的胜率达到77-86%。

The Dual Engines of Thought: A Depth-Breadth Integration Framework for Open Analysis

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-10T00:00:00Z

上个月,AI大模型推理框架vLLM发布v1.0版本,计算效率显著提升,推理速度提高1.7倍,支持百亿参数模型的高效部署。同时,hyper.ai官网上线了vLLM入门教程,提供丰富的公共数据集,帮助研究人员快速掌握vLLM。

推理速度提升 1.7 倍,vLLM v1 版本发布!超 4k 标注步骤,首个多模态逐步推理基准 VRC-Bench 上线...

HyperAI超神经
HyperAI超神经 · 2025-02-14T07:06:07Z
8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式

ReasonFlux是一个多层次的LLM推理框架,通过结构化思维模板和层次化强化学习提高推理效率和可解释性。它在多个数学推理数据集上表现出色,展示了小模型的潜力和广泛应用前景。

8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式

机器之心
机器之心 · 2025-02-12T05:10:49Z

vLLM 是一款加速大语言模型推理的框架,解决了内存管理瓶颈,支持在 x86 CPU 上运行。它使用 BF16 数据类型,兼容 AVX512 指令集。用户可通过 Docker 或源代码构建,建议使用 TCMalloc 提升性能,并合理配置 CPU 核心和 KV 缓存以优化并行处理能力。

【vLLM 学习】使用 CPU 安装

HyperAI超神经
HyperAI超神经 · 2025-02-07T06:42:04Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码