Cloud Native Computing Foundation ·

模型之下的平台：云原生如何推动生产中的AI工程

💡 原文英文，约1300词，阅读约需5分钟。

📝

内容提要

AI工作负载在Kubernetes上运行，但从模型到可靠系统的转变仍不明确。云原生生态系统为AI工程提供了基础设施支持，包括动态资源分配、推理路由和可观察性。AI工程师与云原生从业者需共同努力，推动AI基础设施的开源和社区发展。

🎯

关键要点

AI工作负载越来越多地在Kubernetes上运行，但从模型到可靠系统的转变仍不明确。
云原生生态系统为AI工程提供基础设施支持，包括动态资源分配、推理路由和可观察性。
AI工程师与云原生从业者需共同努力，推动AI基础设施的开源和社区发展。
Kubernetes是AI推理和训练的编排层，动态资源分配（DRA）是其重要发展。
推理网关提供基于模型名称的推理流量路由，支持多个GenAI工作负载。
OpenTelemetry和Prometheus是AI工作负载可观察性的关键工具。
Kubeflow为机器学习团队提供管道编排、实验跟踪和模型服务组件。
开放策略代理（OPA）和SPIFFE/SPIRE提供生产AI部署所需的治理原语。
AI从业者与云原生从业者之间存在真实的差距，双方需共同缩小这一差距。
开源和供应商中立的治理为AI基础设施提供了组合性、可移植性和社区驱动的演变。
云原生生态系统越来越适合支持生产中的AI系统，未来的工作在于这两个社区的交集。

❓

延伸问答

云原生生态系统如何支持AI工程？

云原生生态系统提供动态资源分配、推理路由和可观察性等基础设施支持，帮助AI工程师构建可靠的生产系统。

Kubernetes在AI工作负载中扮演什么角色？

Kubernetes是AI推理和训练的编排层，支持动态资源分配和推理流量路由。

AI工程师与云原生从业者之间存在哪些差距？

AI工程师通常来自数据科学背景，而云原生从业者可能对AI工作负载的架构感到陌生，双方需共同努力缩小这一差距。

动态资源分配（DRA）在Kubernetes中的重要性是什么？

DRA通过细粒度的GPU调度，提升了资源管理的效率，解决了设备插件的局限性。

如何提高AI工作负载的可观察性？

使用OpenTelemetry和Prometheus等工具，可以监控新的AI指标，如每秒令牌数和队列深度，确保与传统基础设施指标的兼容性。

开源治理对AI基础设施有什么影响？

开源治理提供组合性、可移植性和社区驱动的演变，促进AI基础设施的快速适应和发展。

🏷️

继续阅读

Mozilla 发布开源 AI 客户端 Thunderbolt，聊天、搜索、调研、自动化，自托管/隐私优先
Mozilla 发布了开源 AI 客户端 Thunderbolt，支持本地部署，强调用户隐私。该客户端提供聊天、搜索、调研和任务自动化功能，能够接入企业内...
【身份与访问控制工程】服务身份：mTLS、SPIFFE/SPIRE 与 Workload Identity
在微服务系统中，服务间调用普遍存在，传统身份验证方法面临安全和管理挑战。本文探讨了服务身份的重要性，介绍了mTLS的应用及其在Kubernetes中的实现...
微软为何押注于临时身份以防止自主代理失控
在KubeCon Europe 2026上，微软Azure Kubernetes服务项目经理Jorge Palma讨论了边缘AI的运行机制和安全性，强调临...
Stitch的DESIGN.md格式现已开源，您可以跨平台使用。
Stitch的DESIGN.md功能允许用户在项目间导入或导出设计规则，避免重复工作。该功能开源，支持AI理解设计意图并验证可访问性规则。用户可以在Sti...
Percona Operator for MySQL 1.1.0：时间点恢复、增量备份与压缩
Percona Operator for MySQL 1.1.0版本引入了时间点恢复、增量备份和zstd压缩等新功能，提升了Kubernetes上MySQ...
Eclipse基金会推出企业级开源替代方案，取代微软的VS Code市场
Eclipse基金会推出了Open VSX托管注册中心，这是首个由基金会运营的开源开发者基础设施服务。该平台为开发者提供开放、可靠的扩展注册库，支持AI驱...