使用 Prometheus 进行应用监控,这些总结,你受用吗?

💡 原文中文,约3500字,阅读约需9分钟。
📝

内容提要

本文介绍了使用Prometheus实现应用监控的实践,包括确定监控对象、选择监控指标、标识维度和联动技巧。

🎯

关键要点

  • 使用 Prometheus 监控应用的实践总结。
  • 确定监控对象需依据具体问题背景和需求。
  • Google 提出的四个监控黄金指标:延迟、通讯量、错误、饱和度。
  • 监控需求包括反映用户体验、系统吞吐量、故障定位和系统负载。
  • 不同系统需监控的对象不同,分为线上服务、离线计算和批处理作业。
  • 线上服务系统主要监控请求、错误数量和时延。
  • 离线计算系统监控处理作业的时间和数量。
  • 批处理作业监控执行时间和处理记录数量。
  • 监控子系统包括库、日志、错误计数、线程池和缓存。
  • 选择 Vector 的原则包括数据类型相似和单位统一。
  • Label 的选择需确保同一维度数据可平均和可加和。
  • 命名 Metrics 和 Label 时需遵循一定的模式和逻辑。
  • Buckets 的选择影响 histogram 的百分位数计算,需根据数据分布调整。
  • Grafana 使用技巧包括查看所有维度和标尺联动设置。
➡️

继续阅读