使用 Prometheus 进行应用监控,这些总结,你受用吗?
💡
原文中文,约3500字,阅读约需9分钟。
📝
内容提要
本文介绍了使用Prometheus实现应用监控的实践,包括确定监控对象、选择监控指标、标识维度和联动技巧。
🎯
关键要点
- 使用 Prometheus 监控应用的实践总结。
- 确定监控对象需依据具体问题背景和需求。
- Google 提出的四个监控黄金指标:延迟、通讯量、错误、饱和度。
- 监控需求包括反映用户体验、系统吞吐量、故障定位和系统负载。
- 不同系统需监控的对象不同,分为线上服务、离线计算和批处理作业。
- 线上服务系统主要监控请求、错误数量和时延。
- 离线计算系统监控处理作业的时间和数量。
- 批处理作业监控执行时间和处理记录数量。
- 监控子系统包括库、日志、错误计数、线程池和缓存。
- 选择 Vector 的原则包括数据类型相似和单位统一。
- Label 的选择需确保同一维度数据可平均和可加和。
- 命名 Metrics 和 Label 时需遵循一定的模式和逻辑。
- Buckets 的选择影响 histogram 的百分位数计算,需根据数据分布调整。
- Grafana 使用技巧包括查看所有维度和标尺联动设置。
➡️