Cloud Native Computing Foundation ·

在Kubernetes上进行人工智能时的考虑因素

💡 原文英文，约800词，阅读约需3分钟。

📝

内容提要

随着生成性人工智能（GenAI）逐渐应用于各类程序，Kubernetes成为管理AI工作负载的理想平台。GenAI工作负载需要事件驱动的基础设施，工具如Knative和KEDA可实现自动扩展和资源管理。同时，需关注流量波动、可观察性和资源调度，以确保高效运行。MLDevOps也在发展，强调对提示和模型的版本控制与自动化。

🎯

关键要点

生成性人工智能（GenAI）逐渐应用于各类程序，Kubernetes成为管理AI工作负载的理想平台。
GenAI工作负载需要事件驱动的基础设施，工具如Knative和KEDA可实现自动扩展和资源管理。
流量波动、可观察性和资源调度是确保AI工作负载高效运行的重要因素。
Autoscaling Sensitivity：流量波动不可预测，自动扩展器需要根据自定义指标进行微调。
Observability & Debugging：需要收集指标、跟踪和反馈，以理解GenAI的行为。
Prompt and Model Drift：提示可能会过时或产生不一致的输出，需要实时监控。
Resource Intensity：考虑智能调度以避免资源浪费，LLMs对GPU和内存需求高。
MLDevOps正在发展，不仅仅关注模型，还需管理提示、路由和评估循环。
PromptOps：将提示视为版本化的工件，使用Gitops工具管理提示模板。
评估管道：自动化模型和提示测试，以保持高质量。
在Kubernetes上运行AI不仅可行，而且强大，需将提示视为资产，评估视为管道。

❓

延伸问答

为什么Kubernetes适合管理生成性人工智能工作负载？

Kubernetes是管理容器化工作负载的理想平台，能够提供事件驱动的基础设施，支持自动扩展和资源管理，适合处理生成性人工智能的需求。

在Kubernetes上运行AI工作负载时需要考虑哪些因素？

需要考虑流量波动、可观察性、资源调度和自动扩展等因素，以确保AI工作负载的高效运行。

什么是PromptOps，它在AI工作负载中有什么作用？

PromptOps是将提示视为版本化工件的管理方法，使用GitOps工具管理提示模板，以确保提示的版本控制和自动化。

如何实现AI工作负载的自动扩展？

可以使用Knative和KEDA等工具，Knative根据HTTP流量自动扩展，而KEDA则基于外部事件源进行自动扩展。

在Kubernetes上运行生成性人工智能时，如何处理资源密集型问题？

可以使用智能调度工具如Karpenter和Cluster Autoscaler，确保在需要时自动提供GPU和内存资源，避免资源浪费。

为什么需要关注可观察性和调试在生成性人工智能中的重要性？

可观察性和调试对于理解生成性人工智能的行为至关重要，需要收集指标和反馈，以便优化性能和解决问题。

🏷️

继续阅读

在AI工作负载时代如何确保Kubernetes的安全性
Kubernetes的安全性因AI工作负载而变得复杂，传统的集群安全措施已无法应对动态流量。Azure Kubernetes Service（AKS）通过...
Floor Drees：如何在Kubernetes集群中测试PostgreSQL 19 Beta
PostgreSQL 19 Beta 1已发布，包含所有即将推出的新功能。CloudNativePG社区提供了该版本的容器镜像，用户可以在Kubernet...
在自主数据库时代，人类的需求为何不会消失
Percona联合创始人Vadim Tkachenko在会议上指出，未来数据库管理员将转变为数据架构师，日常维护将由自动化和人工智能处理，人类将专注于数据...
每家公司的首个人工智能战略都应该是技能库
企业在实施人工智能时，首要任务是建立“技能图书馆”，记录优秀员工的工作流程和经验，将其转化为可重复使用的技能，以提升AI的实用性和效率，帮助公司更好地利用人工智能。
英国通信管理局（Ofcom）制定人工智能战略，相关研究正在进行中
英国通信管理局（Ofcom）发布了更新的人工智能战略，旨在支持通信行业采用人工智能并应对消费者风险。该战略强调技术中立和结果导向，推动创新并确保安全，包括...
PATH计划提升与行业对接的人工智能培训和职业机会
麻省理工学院与乔治亚州立大学合作推出PATH计划，旨在通过建立州级中心，连接大学、社区学院、行业和政府，提供与行业对接的人工智能培训。该计划强调实践学习，...