阿里云 ACK 云上大规模 Kubernetes 集群高可靠性保障实战

💡 原文中文,约6700字,阅读约需16分钟。
📝

内容提要

阿里云容器服务ACK获得中国信通院的“先进级”认证,介绍了在稳定性保障方面的实践经验和优化策略,包括解决高峰期服务不可用、节点NotReady导致业务受影响、镜像拉取耗时长、Master节点运维复杂等问题。稳定性产品功能包括Prometheus for ACK Pro、容器AIOps套件和托管节点池。

🎯

关键要点

  • 阿里云容器服务ACK获得中国信通院的'先进级'认证,强调稳定性保障的重要性。
  • Kubernetes在高峰期可能出现控制面服务不可用的问题,ACK Pro通过HPA和VPA解决此痛点。
  • 节点NotReady会导致业务雪崩,ACK提供托管节点池功能来治愈异常节点。
  • 镜像拉取耗时长影响业务,ACK通过镜像加速功能来解决此问题。
  • Master节点运维复杂,ACK Pro提供自动弹性和生命周期管理的运维架构。
  • K8s集群的稳定性评估包括服务可用性、处理时延和资源水位等要素。
  • 大规模场景下,K8s集群面临资源种类繁多、控制面压力和数据面压力等挑战。
  • ACK的稳定性治理包括高可用架构、K8s优化、集群容量规划和自动弹性等策略。
  • ACK提供Prometheus for ACK Pro、容器AIOps套件和托管节点池等稳定性产品功能。
  • 容器AIOps套件能够覆盖90%的运维问题,提供全栈巡检和智能诊断功能。
  • 托管节点池支持自升级、自愈、安全修复和极速弹性,简化用户的运维管理。
➡️

继续阅读