etcd性能问题排查及解决方案
💡
原文中文,约4500字,阅读约需11分钟。
📝
内容提要
客户的K8s测试集群频繁崩溃,原因是etcd磁盘IO性能不足。通过将机械硬盘更换为SSD,问题得到解决。排查过程中验证了时间同步和节点负载,最终确认磁盘IO是关键因素。
🎯
关键要点
- 客户的K8s测试集群频繁崩溃,原因是etcd磁盘IO性能不足。
- 通过将机械硬盘更换为SSD,问题得到解决。
- 排查过程中验证了时间同步和节点负载,最终确认磁盘IO是关键因素。
- 集群运行在客户的共享虚机上,使用机械硬盘,导致kube-system下的高可用组件频繁重启。
- 检查时间同步,确保所有节点连接到同一时钟源。
- 监测master节点的负载、CPU、内存、IO和网络性能。
- 使用工具测试网络及磁盘性能,确保满足带宽要求。
- 检查etcd状态和日志,确认其性能不足。
- etcd性能测试结果显示存在FAIL,磁盘IO指标未达标。
- etcd机械盘替换为SSD的步骤包括备份数据、停止kubelet、卸载原磁盘、格式化新磁盘、还原数据等。
- 更换SSD后,etcd集群性能得到显著提升。
➡️