小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
普惠 DeepSeek-V4:Kthena + 昇腾 3 分钟搭建 PD 分离推理

本文介绍了在昇腾NPU上通过Kthena实现DeepSeek-V4模型的P/D分离推理架构。P/D分离将推理过程分为Prefill和Decode两个阶段,以优化计算资源和吞吐率。使用Mooncake Connector实现KV Cache的高效传输,Kthena的ModelRoute负责请求路由和实例发现,验证了P/D分离的可行性,并支持灵活的P/D比例调整和多实例扩展。

普惠 DeepSeek-V4:Kthena + 昇腾 3 分钟搭建 PD 分离推理

华为云官方博客
华为云官方博客 · 2026-05-15T09:29:50Z
Kthena + vLLM-Ascend:云原生大模型推理的编排与调度实践

本文探讨了Kthena与vLLM-Ascend在云原生大模型推理中的应用,解决了Kubernetes在分布式推理中的拓扑约束和状态感知缺失问题。Kthena通过智能调度和流量管理提升了推理效率,降低了延迟,简化了部署流程,展现了大模型服务平台的未来潜力。

Kthena + vLLM-Ascend:云原生大模型推理的编排与调度实践

华为云官方博客
华为云官方博客 · 2026-04-03T07:54:14Z
介绍Kthena:云原生时代的大语言模型推理

Kthena是Volcano社区推出的子项目,旨在为全球开发者和MLOps工程师提供高效的云原生大语言模型推理调度解决方案。它通过拓扑感知调度和智能路由优化GPU/NPU资源利用,降低延迟,简化Kubernetes上大语言模型的部署。Kthena支持多模型管理和动态扩展,提高AI生命周期的整体效率。

介绍Kthena:云原生时代的大语言模型推理

Cloud Native Computing Foundation
Cloud Native Computing Foundation · 2026-01-28T15:00:00Z
Volcano 社区发布 Kthena 子项目 | 重新定义大模型智能推理

Volcano推出Kthena,一个专为Kubernetes设计的高性能LLM推理调度系统,旨在提高GPU/NPU资源利用率,简化多模型管理,解决资源利用率低、延迟与吞吐量难以兼顾的问题,推动云原生AI生态发展。

Volcano 社区发布 Kthena 子项目 | 重新定义大模型智能推理

华为云官方博客
华为云官方博客 · 2026-01-05T02:04:58Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码