华为云官方博客 ·

Kthena + vLLM-Ascend：云原生大模型推理的编排与调度实践

💡 原文中文，约5100字，阅读约需13分钟。

📝

内容提要

本文探讨了Kthena与vLLM-Ascend在云原生大模型推理中的应用，解决了Kubernetes在分布式推理中的拓扑约束和状态感知缺失问题。Kthena通过智能调度和流量管理提升了推理效率，降低了延迟，简化了部署流程，展现了大模型服务平台的未来潜力。

🎯

关键要点

Kthena与vLLM-Ascend在云原生大模型推理中的应用，解决了Kubernetes在分布式推理中的拓扑约束和状态感知缺失问题。
Kthena通过智能调度和流量管理提升了推理效率，降低了延迟，简化了部署流程。
当前基于Kubernetes部署大模型推理面临多维度拓扑约束缺失、PD分离架构下的编排断裂和流量网关的状态盲区等挑战。
Kthena项目通过深度集成Volcano的批处理调度能力，将分布式推理转化为具备拓扑约束的原子调度单元。
ModelServing是Kthena架构中承载实际推理计算任务的执行单元，支持全局拓扑感知调度与Gang Scheduling。
Kthena Router是智能流量枢纽，支持精准转发和KV Cache感知，显著提升吞吐量和降低延迟。
Kthena Autoscaler实现Prefill和Decode实例的联动伸缩，确保资源高效利用。
ModelBooster提供极简的一站式部署能力，简化了大模型推理服务的部署过程。
Kthena与Volcano调度器的深度集成实现了多级拓扑感知与原子化调度。
Kthena构建了一套完整的、面向生产的工程范式，未来的大模型服务平台将建立在成熟的云原生技术栈之上。

❓

延伸问答

Kthena和vLLM-Ascend在大模型推理中解决了哪些问题？

Kthena和vLLM-Ascend解决了Kubernetes在分布式推理中的拓扑约束和状态感知缺失问题。

Kthena如何提升推理效率和降低延迟？

Kthena通过智能调度和流量管理来提升推理效率，降低延迟。

Kthena的Autoscaler是如何工作的？

Kthena的Autoscaler通过监控Prefill和Decode实例的队列长度和请求延迟，实现联动伸缩，确保资源高效利用。

ModelServing在Kthena架构中扮演什么角色？

ModelServing是Kthena架构中承载实际推理计算任务的执行单元，负责全局拓扑感知调度与Gang Scheduling。

Kthena Router的主要功能是什么？

Kthena Router是智能流量枢纽，支持精准转发和KV Cache感知，显著提升吞吐量和降低延迟。

Kthena如何简化大模型推理服务的部署过程？

Kthena通过ModelBooster提供极简的一站式部署能力，用户只需关注模型信息，其他由ModelBooster处理。

🏷️

继续阅读

在Databricks上通过提示缓存加速开源模型的LLM推理
在旧金山举行的全球最大数据、应用和人工智能活动中，研究人员探讨了提示缓存技术在大型语言模型（LLM）推理中的应用。提示缓存可以消除重复请求的冗余，提高模型...
Google 开源 AX 与 Agent Substrate：构建以 Agent 为核心的云原生计算底座
Google 在 I/O ’26 大会上推出了以 Agent 为核心的云原生计算基础设施，包括开源项目 AX 和 Agent Substrate。该系统通...
全新生图模型 Anima V1 发布：专注动漫风格的图像生成；MemLens 多模态长程记忆评估数据集：涵盖跨会话图文推理与知识更新机制
Anima V1 是 CircleStone Labs 于 2026 年推出的动漫风格图像生成模型，支持通过文本描述快速生成角色立绘和插画，用户可在 Gr...
Qt Bridges for C# 深度技术解析 - 张善友
Qt Bridges for C# 公测版预计于2026年发布，旨在填补C#在Linux平台的UI开发空白。随着全球Linux桌面市场份额逐步上升，Qt ...
孩子小升初，我学会了不少新词
文章讨论了孩子小升初过程中家长接触的新词汇，涉及教育政策和学校类型，作者对此感到困惑，甚至考虑去寺庙祈福以求顺利。
缺氧和异星工厂的比较
《缺氧》和《异星工厂》是两款自动化和资源管理类游戏，各具特色。《缺氧》强调在有限资源环境中管理熵，玩家需应对系统崩溃；而《异星工厂》则提供无限地图，专注于...