IBM、Red Hat和Google刚刚将Kubernetes蓝图捐赠给CNCF，用于大语言模型推理

The New Stack ·

IBM、Red Hat和Google刚刚将Kubernetes蓝图捐赠给CNCF，用于大语言模型推理

💡 原文英文，约800词，阅读约需3分钟。

📝

内容提要

IBM、Red Hat和Google Cloud在2026年KubeCon欧洲大会上宣布将开源推理框架llm-d捐赠给云原生计算基金会（CNCF）。llm-d旨在通过Kubernetes简化大语言模型的推理，支持多种加速器，提高效率并降低成本。该框架提供可重复的基准测试和兼容性，推动AI推理成为云原生基础设施的重要组成部分。

🎯

关键要点

IBM、Red Hat和Google Cloud在2026年KubeCon欧洲大会上宣布将开源推理框架llm-d捐赠给云原生计算基金会（CNCF）。
llm-d旨在通过Kubernetes简化大语言模型的推理，支持多种加速器，提高效率并降低成本。
该框架提供可重复的基准测试和兼容性，推动AI推理成为云原生基础设施的重要组成部分。
llm-d是一个开源的Kubernetes原生框架，旨在将大语言模型推理作为分布式、生产级工作负载运行。
llm-d引入了前缀缓存感知路由和预填充/解码分离，允许推理阶段独立扩展。
IBM和合作伙伴希望通过将llm-d贡献给CNCF，推动AI推理成为云原生堆栈的基础部分。
llm-d的下一开发周期将专注于扩展多模态工作负载的能力和与vLLM的更深集成。

❓

延伸问答

llm-d框架的主要功能是什么？

llm-d框架旨在通过Kubernetes简化大语言模型的推理，支持多种加速器，提高效率并降低成本。

IBM、Red Hat和Google捐赠llm-d的原因是什么？

他们希望推动AI推理成为云原生基础设施的重要组成部分，并标准化分布式推理的部署和管理。

llm-d如何提高推理效率？

llm-d引入了前缀缓存感知路由和预填充/解码分离，允许推理阶段独立扩展，从而提高效率。

llm-d与传统推理方法相比有什么优势？

llm-d提供了可重复的基准测试和兼容性，能够更快、更便宜地运行推理，适应状态感知的工作负载。

llm-d的下一开发周期将专注于哪些方面？

下一开发周期将专注于扩展多模态工作负载的能力和与vLLM的更深集成。

llm-d框架的贡献对云原生计算基金会有什么影响？

llm-d的贡献将推动AI推理成为云原生堆栈的基础部分，促进共同模式、API和治理的汇聚。

🏷️

继续阅读

在AI工作负载时代如何确保Kubernetes的安全性
Kubernetes的安全性因AI工作负载而变得复杂，传统的集群安全措施已无法应对动态流量。Azure Kubernetes Service（AKS）通过...
在自主数据库时代，人类的需求为何不会消失
Percona联合创始人Vadim Tkachenko在会议上指出，未来数据库管理员将转变为数据架构师，日常维护将由自动化和人工智能处理，人类将专注于数据...
VoidZero团队已加入Cloudflare
VoidZero团队已加入Cloudflare，Vite及其相关项目将继续保持开源和中立。Cloudflare承诺投资100万美元支持Vite生态系统的维...
Multigres v0.1 Alpha：Postgres的操作系统
Multigres v0.1 alpha已发布，旨在为Postgres提供可扩展的操作系统，支持分片、连接池、自动故障转移和备份管理。该版本简化了Post...
开源维护者的困境
开源维护者面临困境，贡献者与维护者之间的社会契约逐渐崩溃。AI的介入虽然提供帮助，但也引发责任和审核标准的疑问。维护者的工作量激增，未处理的拉取请求不断增...
Hugo 静态博客实现 Google AdSense 广告位懒加载：从原理到实践
本文介绍了如何通过懒加载技术优化Hugo博客中的广告位，解决广告过多导致页面加载缓慢的问题。使用HTML5的<template>标签和Inte...