Pod 的健康检查耗尽 /run 存储空间,差点卷铺盖走人
原文中文,约7500字,阅读约需18分钟。发表于: 。使用 nvidia-container-runtime 的朋友可以重点关注下,特别是还有 JuiceFS 的情况。 1. 突然收到告警,我慌了 周末,学习 TensorRT LLM,顺便给线上最大的正式集群安装了一下 Dragonfly,然后就去买菜了。 下午发现有个节点的 Dragonfly Daemon 没起来,一直告警,就去所在节点重启了下 Kubelet。 大约
JuiceFS用户使用nvidia-container-runtime需关注Dragonfly安装问题和磁盘空间不足导致的告警。清空相关文件解决问题。讨论了log.json日志增长问题和解决方案,包括清理超过100M的log.json文件和修改nvidia-container-runtime的日志级别。