牛逼的监控系统,不接受反驳!!

💡 原文中文,约12300字,阅读约需30分钟。
📝

内容提要

本文介绍了如何基于kube-prometheus设计一个监控系统,以灵活简单的方式对kubernetes上的应用进行指标采集,并实现监控报警功能。

🎯

关键要点

  • 运维派是国内早期的IT运维技术社区,提供Linux、云计算、Python等教程。

  • 本文介绍如何基于kube-prometheus设计监控系统,采集Kubernetes应用指标并实现监控报警。

  • 大数据运维监控是生产实践中的痛点,Prometheus是云原生时代流行的监控软件。

  • 监控系统的核心任务是抓取指标数据,分析和告警。

  • 监控对象为Kubernetes集群中的Pod,指标暴露方式有三种:直接暴露、推送到pushGateway和自定义exporter。

  • Prometheus通过Pull方式抓取监控数据,配置抓取任务以请求监控数据。

  • 推荐使用Pod Monitor进行监控配置,简洁易懂。

  • 告警流程包括服务异常、触发告警、Alertmanager处理告警信息。

  • 告警规则分为处理策略和具体告警规则,支持动态配置。

  • 接入自定义告警平台以实现告警信息的高度定制化处理。

  • 告警层级标签设计影响告警规则的分组和处理方式。

  • 技术实现包括Kubernetes环境下Prometheus的部署和增强配置。

  • kube-prometheus使用jsonnet编写配置模板,提供默认清单文件。

  • bigdata-exporter用于采集多个组件的指标数据,并转换为Prometheus格式。

  • 告警设计示例展示了如何配置告警规则和接收者。

  • 告警流程示例展示了如何处理磁盘空间监控的告警。

  • exporter可以以sidecar或独立部署形式存在,具体选择视情况而定。

  • 使用promtool检查指标格式的正确性。

  • kube-prometheus对arm的支持情况需注意镜像版本。

  • 本文链接提供了更多详细信息。

➡️

继续阅读