The New Stack ·

构建大规模AI基础设施的Kubernetes原生模式

💡 原文英文，约1200词，阅读约需5分钟。

📝

内容提要

文章讨论了在Kubernetes上运行大型AI模型的挑战，尤其是在事件驱动的环境中。随着使用增加，操作复杂性上升，特别是在处理延迟敏感和不可预测流量时。提出通过Kubernetes原语标准化模型生命周期、推理和GPU容量，以提高可靠性和可扩展性。使用KAITO、liteLLM和GPU Flex Nodes等工具，可以实现跨云的弹性调度和高效故障转移。

🎯

关键要点

在Kubernetes上运行大型AI模型的初期，重点是使其能够运行，但随着使用的增加，操作复杂性上升。
事件驱动的环境中，AI平台面临延迟敏感性、不可预测的流量高峰和低容错率等挑战。
GPU资源通常是逐步添加的，导致容量分散，增加了操作复杂性。
推理应被视为一类重要的、声明式管理的工作负载，而不是简单的批处理基础设施的附加层。
通过扩展Kubernetes原语，可以将模型生命周期、推理和GPU容量标准化，从而提高可靠性和可扩展性。
KAITO、liteLLM和GPU Flex Nodes等工具可以实现跨云的弹性调度和高效故障转移。
未来，拓扑感知调度将变得越来越重要，可以在集群中声明性地表达延迟、数据本地性和成本等考虑因素。

❓

延伸问答

在Kubernetes上运行大型AI模型面临哪些主要挑战？

主要挑战包括延迟敏感性、不可预测的流量高峰和低容错率等操作复杂性。

如何通过Kubernetes原语提高AI模型的可靠性和可扩展性？

通过扩展Kubernetes原语，标准化模型生命周期、推理和GPU容量，可以提高可靠性和可扩展性。

KAITO、liteLLM和GPU Flex Nodes的作用是什么？

KAITO用于模型定义和GPU配置，liteLLM提供一致的API接口，GPU Flex Nodes解决GPU资源碎片化问题。

事件驱动的AI工作负载如何在Kubernetes中管理？

事件驱动的AI工作负载通过Kubernetes原生组件运行，利用liteLLM进行请求路由和GPU节点调度。

未来Kubernetes调度的趋势是什么？

未来将越来越重视拓扑感知调度，以便在集群中考虑延迟、数据本地性和成本等因素。

为什么推理应被视为重要的工作负载？

推理应被视为重要的工作负载，因为它需要弹性调度和声明式管理，而不仅仅是批处理基础设施的附加层。

🏷️

继续阅读

Jim Bugwadia谈为何发现Kubernetes问题只是Kyverno用户战斗的一半
Kyverno项目在CNCF毕业，成为Kubernetes最受欢迎的开源策略引擎。其商业版Nirmata提供企业支持和管理功能。经过五年的发展，Kyver...
我们的TPU如何支持日益增长的AI工作负载
谷歌的TPU（张量处理单元）是专为AI模型设计的定制芯片，具备121 exaflops的计算能力和双倍带宽。
AI发掘漏洞太多太快的后遗症：Linux内核社区讨论删除上世纪的旧驱动
Linux社区讨论删除老旧网络驱动程序，以应对AI快速发现的漏洞。提案建议按需保留，企业需自费维护老旧设备，否则将删除驱动，以减少维护时间和漏洞风险。
AI 正在提高统一通信供应商锁定风险
AI 正在改变供应商锁定问题，不再仅限于合同和技术，还涉及运营和组织层面。IT 领导者需关注 AI 赋能的统一通信平台的锁定风险，包括数据迁移和工作流程集...
AI涨价成为趋势：智谱迁移Coding Plan不限量老套餐向老用户补偿2个月
智谱宣布将强制迁移旧版GLM Coding Plan至新套餐，权益缩减为5小时和周限额。作为补偿，老用户可享受2个月新套餐。调整原因是旧套餐无法维持服务，...
【公益译文】2026年国际AI安全报告（五）
AI风险管理旨在识别、评估和降低与AI相关的风险。主要方法包括风险识别、分析、缓解和治理。通过专家互动和威胁建模发现潜在风险，评估模型的能力和漏洞，采用控...