安志合的学习博客 ·

etcd性能问题排查及解决方案

💡 原文中文，约4500字，阅读约需11分钟。

📝

内容提要

客户的K8s测试集群频繁崩溃，原因是etcd磁盘IO性能不足。通过将机械硬盘更换为SSD，问题得到解决。排查过程中验证了时间同步和节点负载，最终确认磁盘IO是关键因素。

🎯

关键要点

客户的K8s测试集群频繁崩溃，原因是etcd磁盘IO性能不足。
通过将机械硬盘更换为SSD，问题得到解决。
排查过程中验证了时间同步和节点负载，最终确认磁盘IO是关键因素。
集群运行在客户的共享虚机上，使用机械硬盘，导致kube-system下的高可用组件频繁重启。
检查时间同步，确保所有节点连接到同一时钟源。
监测master节点的负载、CPU、内存、IO和网络性能。
使用工具测试网络及磁盘性能，确保满足带宽要求。
检查etcd状态和日志，确认其性能不足。
etcd性能测试结果显示存在FAIL，磁盘IO指标未达标。
etcd机械盘替换为SSD的步骤包括备份数据、停止kubelet、卸载原磁盘、格式化新磁盘、还原数据等。
更换SSD后，etcd集群性能得到显著提升。

🏷️

继续阅读

广和通在MWC 2026推出全新GNSS解决方案
广和通在MWC 2026上宣布将深化GNSS战略，推出多种定位模组及解决方案，支持两轮车和资产追踪等应用，提供精准高效的定位服务。新模组预计于2026年4月送样。
golang 生成 word 文档，模板替换问题排查
在开发人事管理系统的入职登记表时，使用Golang替换Word模板中的占位符时遇到问题，部分占位符无法替换，怀疑是Word模板本身的问题。解压DOCX文件...
LTN与MediaKind合作，提供可靠的IP传输和边缘处理解决方案
LTN与MediaKind达成战略合作，整合MK.IO Beam设备与LTN网络，实现高效视频传输，推动IP分发部署，简化边缘处理，满足内容制作商对灵活性...
20250310
作者经历了一次长时间的睡眠，梦见了许多不可能的人和故事。因工作过度感到虚弱，意识到需要休息，决定减少工作时间，以保持创造力和好奇心。
AI客服越智能越坑人？坑了商家、坑客户，咋办？
你是否也在烦恼AI客服只会兜圈子、不给退款、死活不转人工？这期内容拆解AI客服常见套路，教你识别“只会聊天不办事”的系统，并学会更高效地和AI客服沟通。 ...
本周PSC动态（217）| 2026年3月9日
我们召开了简短会议，讨论潜在新核心团队成员的进展，决定在所有人回复后投票。发现PSC过渡中遗漏了一个小步骤，决定制定检查清单。会议时间有限，未讨论太多问题...

etcd性能问题排查及解决方案

内容提要

关键要点

标签

继续阅读