亚马逊AWS官方博客 ·

在亚马逊云科技上构建多区域的统一资源监控平台 – Part 1

💡 原文中文，约7600字，阅读约需18分钟。

📝

内容提要

本文介绍了构建多区域的统一资源监控平台的方法，包括监控系统选型、Prometheus的能力、架构选型和AMP与CloudWatch的比较。最终建议使用AMP+AMG方案构建统一资源监控平台。

🎯

企业运维团队需要深入了解系统性能和健康状况，以提高用户体验。
监控系统需具备节省空间的存储模型和高效的查询能力。
本文以企业客户的使用场景为例，介绍如何构建多区域的统一资源监控平台。
监控系统选型需考虑业务服务、中间件和云上资源的整合。
Prometheus、InfluxDB 和 Kdb 是三款知名的时序数据库，Prometheus 在国内使用更广泛。
Prometheus 通过 HTTP 协议周期性抓取被监控组件的状态，支持多维数据模型。
Prometheus 系统由多个组件构成，包括 Prometheus Server、Exporter、Service Discovery 和 AlertManager。
Prometheus 默认采用 Pull 模式采集数据，但在某些情况下可使用 PushGateway。
Categraf 是一款 All-in-One 的开源数据采集器，支持多种数据源的采集。
自建 Prometheus 监控系统在业务增长后可能面临可扩展性和性能瓶颈问题。
Amazon Managed Service for Prometheus（AMP）是完全托管的 Prometheus 服务，支持高可用性和水平可扩展性。
Grafana 是一个开源可视化工具，通常与 Prometheus 配合使用。
Amazon Managed Grafana（AMG）提供托管的 Grafana 服务，支持自动扩展和安全管理。
AMP 和 CloudWatch 在功能和成本上存在差异，AMP 在细粒度数据采集上更具优势。
本文总结了在亚马逊云科技上构建多区域统一资源监控平台的过程，强调了 AMP+AMG 方案的优势。

🏷️