The Cloudflare Blog ·

一个简单的Kubernetes修复，节省了每年600小时

💡 原文英文，约1400词，阅读约需5分钟。

📝

内容提要

重启Atlantis需等待30分钟，导致每月损失50小时。问题在于Kubernetes的默认设置，文件增多使重启变慢。调整fsGroupChangePolicy后，重启时间缩短至30秒，显著提升工作效率。

🎯

🔎

Kubernetes的安全默认设置适用于小型工作负载，但在数据量增加时可能导致性能瓶颈。本文案例中，随着持久卷文件数量的增加，重启时间显著延长，显示出默认设置在特定场景下的局限性。

通过调整fsGroupChangePolicy，重启时间从30分钟缩短至30秒，显著提升了工作效率。这一简单的配置更改为团队节省了大量工程时间，强调了在Kubernetes中定期审查和优化配置的重要性。

在处理Kubernetes性能问题时，监控和调试是关键。通过分析kubelet日志和事件，团队能够识别出导致重启延迟的根本原因。这提醒我们在面对系统问题时，深入调查而非仅仅依赖默认设置。

❓

Kubernetes的默认设置导致Atlantis在重启时需要递归更改持久卷中所有文件的权限，随着文件数量的增加，这个过程变得非常缓慢。

通过将fsGroupChangePolicy设置为OnRootMismatch，可以避免每次挂载时递归更改所有文件的权限，从而显著缩短重启时间。

Atlantis重启时每月损失约50小时的工程时间。

Kubernetes在处理大文件时，可能会因为递归更改文件权限而导致重启时间显著增加，这是由于默认设置不适合大规模数据。

建议检查securityContext中的fsGroup和fsGroupChangePolicy设置，以确保它们适合当前的工作负载和数据规模。

调整fsGroupChangePolicy后，Atlantis的重启时间缩短至约30秒。

🏷️