华为云官方博客 ·

Volcano 社区发布 Kthena 子项目 | 重新定义大模型智能推理

💡 原文中文，约5800字，阅读约需14分钟。

📝

内容提要

Volcano推出Kthena，一个专为Kubernetes设计的高性能LLM推理调度系统，旨在提高GPU/NPU资源利用率，简化多模型管理，解决资源利用率低、延迟与吞吐量难以兼顾的问题，推动云原生AI生态发展。

🎯

🔎

Kthena通过超节点拓扑感知调度和KV Cache感知流量调度等功能，显著提升了GPU/NPU资源的利用率。这种设计不仅优化了推理性能，还降低了延迟，使得企业在处理大规模LLM时能够获得更高的灵活性和控制力。

在企业环境中，管理多个不同版本的模型是一项复杂的任务。Kthena通过智能路由和流量治理策略，简化了多模型的调度和管理，帮助开发者更高效地应对多租户环境下的资源分配和优先级管理问题。

Kthena的推出标志着Volcano在云原生AI生态中的进一步发展。它不仅解决了LLM推理的实际问题，还为未来的技术创新和标准化奠定了基础，促进了整个行业的进步。

❓

Kthena是一个专为Kubernetes设计的高性能LLM推理调度系统，旨在提高GPU/NPU资源利用率，简化多模型管理。

Kthena通过超节点拓扑感知调度和KV Cache感知流量调度等功能，显著提升GPU/NPU资源利用率。

Kthena的核心组件包括Kthena Router和Kthena Controller Manager。

Kthena提供智能路由和流量治理策略，支持多模型路由，简化多模型管理。

Kthena具备自动扩缩容功能，能够根据业务指标精准调整资源，优化利用和成本。

Kthena的推出标志着Volcano在智能计算调度领域的进一步发展，推动云原生AI生态的技术创新和标准化。

🏷️