Cloud Native Computing Foundation ·

介绍Kthena：云原生时代的大语言模型推理

💡 原文英文，约1700词，阅读约需7分钟。

📝

内容提要

Kthena是Volcano社区推出的子项目，旨在为全球开发者和MLOps工程师提供高效的云原生大语言模型推理调度解决方案。它通过拓扑感知调度和智能路由优化GPU/NPU资源利用，降低延迟，简化Kubernetes上大语言模型的部署。Kthena支持多模型管理和动态扩展，提高AI生命周期的整体效率。

🎯

关键要点

Kthena是Volcano社区推出的子项目，旨在为全球开发者和MLOps工程师提供高效的云原生大语言模型推理调度解决方案。
Kthena通过拓扑感知调度和智能路由优化GPU/NPU资源利用，降低延迟，简化Kubernetes上大语言模型的部署。
Kthena支持多模型管理和动态扩展，提高AI生命周期的整体效率。
Kthena解决了在Kubernetes上高效部署大语言模型的复杂系统工程挑战。
Kthena的架构包括Kthena Router和Kthena Controller Manager两个核心组件。
Kthena提供生产级推理调度，简化管理，支持原生PD分离和拓扑感知调度。
Kthena具有智能的模型感知路由功能，支持多模型路由和可插拔算法。
Kthena实现了基于成本驱动的自动扩展，优化资源分配。
Kthena支持多种推理引擎和异构计算，能够平衡成本和服务水平目标。
Kthena内置流量控制和公平性调度，防止低优先级用户的资源饥饿。
Kthena在长系统提示场景下显著提高了吞吐量和降低了延迟。
Kthena获得了行业领导者的广泛关注和支持，标志着Volcano技术演进的重要里程碑。
Kthena的推出为开发者提供了一个开放、智能的生态系统，推动行业智能转型。

🏷️

继续阅读

云原生计算基金会欢迎21个新银会员，全球对可观察性、人工智能和安全云原生基础设施的需求激增
云原生计算基金会（CNCF）新增21个银会员，反映企业对云原生技术的需求上升。2025年调查显示，98%的组织已采用云原生技术，82%在生产中使用Kube...
宣布发布KubeVirt v1.8
KubeVirt社区发布v1.8版本，支持Kubernetes v1.35。此次更新新增Intel TDX支持、超虚拟机抽象层及AI和HPC工作负载优化，...
Istio推出未来就绪的服务网，迎接AI时代，带来新的环境多集群、Gateway API推理扩展等功能
Istio在KubeCon + CloudNativeCon Europe 2026上推出了多集群支持和Gateway API推理扩展，旨在简化AI工作负...
claude-ai-spring-boot：SpringBoot应用的ClaudeCode开源模板
Claude Code是一个开源的Spring Boot模板，旨在提升开发效率。作者Piotr Minkowski介绍了如何利用该模板生成高质量的企业级代...
Kubernetes联合创始人布伦丹·伯恩斯：AI生成的代码将变得像汇编语言一样无形
Kubernetes联合创始人布伦丹·伯恩斯认为，随着AI生成代码的普及，代码审查的重要性将降低，编程语言也会随之演变。他指出，AI工作负载促使Kuber...
推动开源AI发展，NVIDIA向Kubernetes社区捐赠GPU动态资源分配驱动程序
NVIDIA向云原生计算基金会捐赠GPU动态资源分配驱动程序，提升Kubernetes社区的高性能AI基础设施管理，增强GPU资源共享效率，支持动态硬件配...

介绍Kthena：云原生时代的大语言模型推理

内容提要

关键要点

标签

继续阅读