Cloud Native Computing Foundation ·

介绍Kthena：云原生时代的大语言模型推理

💡 原文英文，约1700词，阅读约需7分钟。

📝

内容提要

Kthena是Volcano社区推出的子项目，旨在为全球开发者和MLOps工程师提供高效的云原生大语言模型推理调度解决方案。它通过拓扑感知调度和智能路由优化GPU/NPU资源利用，降低延迟，简化Kubernetes上大语言模型的部署。Kthena支持多模型管理和动态扩展，提高AI生命周期的整体效率。

🎯

关键要点

Kthena是Volcano社区推出的子项目，旨在为全球开发者和MLOps工程师提供高效的云原生大语言模型推理调度解决方案。
Kthena通过拓扑感知调度和智能路由优化GPU/NPU资源利用，降低延迟，简化Kubernetes上大语言模型的部署。
Kthena支持多模型管理和动态扩展，提高AI生命周期的整体效率。
Kthena解决了在Kubernetes上高效部署大语言模型的复杂系统工程挑战。
Kthena的架构包括Kthena Router和Kthena Controller Manager两个核心组件。
Kthena提供生产级推理调度，简化管理，支持原生PD分离和拓扑感知调度。
Kthena具有智能的模型感知路由功能，支持多模型路由和可插拔算法。
Kthena实现了基于成本驱动的自动扩展，优化资源分配。
Kthena支持多种推理引擎和异构计算，能够平衡成本和服务水平目标。
Kthena内置流量控制和公平性调度，防止低优先级用户的资源饥饿。
Kthena在长系统提示场景下显著提高了吞吐量和降低了延迟。
Kthena获得了行业领导者的广泛关注和支持，标志着Volcano技术演进的重要里程碑。
Kthena的推出为开发者提供了一个开放、智能的生态系统，推动行业智能转型。

🔎

延伸解读

Kthena的核心优势

Kthena通过拓扑感知调度和智能路由优化GPU/NPU资源利用，显著降低了延迟并提高了吞吐量。这种设计使得在Kubernetes上部署大语言模型变得更加高效，尤其是在处理复杂的多模型管理时，能够有效避免资源浪费和请求排队的问题。

多模型管理的挑战

在企业环境中，管理多个模型及其版本是一项复杂的任务。Kthena通过支持动态路由和公平调度，帮助开发者更好地应对这一挑战。其智能的模型感知路由功能能够根据请求的特征灵活分配资源，从而提高整体系统的响应速度和效率。

行业支持与未来展望

Kthena的推出得到了行业领导者的广泛关注，标志着Volcano技术演进的重要里程碑。随着更多开发者的参与，Kthena有望推动云原生AI的智能转型，形成一个开放、智能的生态系统，进一步提升大语言模型的应用效率。

❓

延伸问答

Kthena的主要功能是什么？

Kthena主要提供高效的云原生大语言模型推理调度解决方案，包括拓扑感知调度和智能路由，优化GPU/NPU资源利用，降低延迟。

Kthena如何解决Kubernetes上大语言模型部署的复杂性？

Kthena通过提供生产级推理调度、支持多模型管理和动态扩展，简化了Kubernetes上大语言模型的部署过程。

Kthena的架构包含哪些核心组件？

Kthena的架构包括Kthena Router和Kthena Controller Manager两个核心组件。

Kthena如何优化资源分配？

Kthena实现了基于成本驱动的自动扩展，优化资源分配，并支持多种推理引擎和异构计算。

Kthena在推理性能上有哪些显著优势？

Kthena在长系统提示场景下显著提高了吞吐量，降低了延迟，具体表现为吞吐量增加约2.73倍，端到端延迟减少超过60%。

Kthena如何支持多模型管理？

Kthena支持多模型管理，通过智能路由和可插拔算法，能够同时处理多个模型和版本的请求。

🏷️