etcd性能问题排查及解决方案

💡 原文中文,约4500字,阅读约需11分钟。
📝

内容提要

客户的K8s测试集群频繁崩溃,原因是etcd磁盘IO性能不足。通过将机械硬盘更换为SSD,问题得到解决。排查过程中验证了时间同步和节点负载,最终确认磁盘IO是关键因素。

🎯

关键要点

  • 客户的K8s测试集群频繁崩溃,原因是etcd磁盘IO性能不足。
  • 通过将机械硬盘更换为SSD,问题得到解决。
  • 排查过程中验证了时间同步和节点负载,最终确认磁盘IO是关键因素。
  • 集群运行在客户的共享虚机上,使用机械硬盘,导致kube-system下的高可用组件频繁重启。
  • 检查时间同步,确保所有节点连接到同一时钟源。
  • 监测master节点的负载、CPU、内存、IO和网络性能。
  • 使用工具测试网络及磁盘性能,确保满足带宽要求。
  • 检查etcd状态和日志,确认其性能不足。
  • etcd性能测试结果显示存在FAIL,磁盘IO指标未达标。
  • etcd机械盘替换为SSD的步骤包括备份数据、停止kubelet、卸载原磁盘、格式化新磁盘、还原数据等。
  • 更换SSD后,etcd集群性能得到显著提升。
➡️

继续阅读