通过 Prometheus 编写 TiDB 巡检脚本(脚本已开源,内附链接)

💡 原文中文,约17500字,阅读约需42分钟。
📝

内容提要

本文介绍了使用Prometheus进行集群巡检的方法,包括使用PromQL查询语言获取数据和修改告警中的PromQL。还提供了一个巡检脚本示例,并强调巡检脚本编写是长期工作。

🎯

关键要点

  • 神州数码钛合金战队专注于TiDB整体解决方案,团队成员拥有丰富的数据库背景。
  • 在150套TiDB集群中,手动巡检变得繁琐,需寻找自动化解决方案。
  • Prometheus可用于获取集群数据,但告警仅基于当前数据,巡检需基于历史数据。
  • PromQL是一种嵌套的函数式查询语言,与SQL不同,需要理解其基本用法。
  • 常用的PromQL函数包括rate、irate和histogram_quantile,用于计算变化率和分位数。
  • 修改告警中的PromQL以适应巡检需求,使用max_over_time等函数获取历史数据最大值。
  • 编写巡检脚本需要提前准备PromQL,避免因数据量过大导致错误。
  • 巡检脚本的编写是长期工作,需不断完善以涵盖更多监控项。
  • 脚本已在Gitee开源,欢迎社区贡献更多巡检项。
➡️

继续阅读