Pod 的健康检查耗尽 /run 存储空间,差点卷铺盖走人
💡
原文中文,约7500字,阅读约需18分钟。
📝
内容提要
JuiceFS用户使用nvidia-container-runtime需关注Dragonfly安装问题和磁盘空间不足导致的告警。清空相关文件解决问题。讨论了log.json日志增长问题和解决方案,包括清理超过100M的log.json文件和修改nvidia-container-runtime的日志级别。
🎯
关键要点
- JuiceFS用户使用nvidia-container-runtime需关注Dragonfly安装问题和磁盘空间不足导致的告警。
- 告警原因是磁盘空间不足,清空相关文件可解决问题。
- log.json日志增长问题的解决方案包括清理超过100M的log.json文件。
- 可以通过修改nvidia-container-runtime的日志级别来减少日志输出。
- 建议直接清理超过100M的log.json文件以释放磁盘空间。
- 修改nvidia-container-runtime的配置文件以调整日志级别。
- 修改Containerd的state目录以使用更大的磁盘空间。
➡️