💡 原文英文,约1500词,阅读约需6分钟。
📝

内容提要

Kubernetes 1.35 引入了“就地重启所有容器”功能,允许高效重置 Pod 状态,特别适合 AI/ML 工作负载。此功能避免了 Pod 的删除和重建,提升了系统灵活性和鲁棒性。启用 RestartAllContainersOnContainerExits 特性后,开发者可更专注于核心逻辑,简化故障处理。

🎯

关键要点

  • Kubernetes 1.35 引入了就地重启所有容器的功能,允许高效重置 Pod 状态。
  • 此功能特别适合 AI/ML 工作负载,避免了 Pod 的删除和重建。
  • 启用 RestartAllContainersOnContainerExits 特性后,开发者可以专注于核心逻辑,简化故障处理。
  • Kubernetes 支持 Pod 级别和单个容器级别的重启策略,但现代应用程序的容器间依赖性更复杂。
  • 在处理大规模 AI/ML 工作负载时,Pod 的重建过程缓慢且成本高昂。
  • 新功能允许在容器退出时快速就地重启 Pod,保留 Pod 的重要资源。
  • RestartAllContainers 动作可以在特定条件下触发,快速重启所有容器。
  • 此功能适用于 ML 训练作业,减少了恢复开销。
  • 可以通过配置主应用程序在检测到状态损坏时退出特定代码来触发重启。
  • 此功能需要在 Kubernetes 集群组件上启用 RestartAllContainersOnContainerExits 特性门。
  • 新增加的 Pod 状态条件 AllContainersRestarting 提供了重启过程的可观察性。