InfoQ ·

Flipkart通过层次化联合设计将Prometheus扩展至8000万指标

💡 原文英文，约700词，阅读约需3分钟。

📝

内容提要

Flipkart通过采用Prometheus的层次化联合设计，解决了监控可扩展性问题。最初使用StatsD聚合指标，但无法扩展。转向Prometheus后，通过本地服务器收集指标并通过/federate端点聚合，显著降低了指标基数和中央服务器负载。尽管在调试实例异常时效果有限，但该方法为应对云原生环境中的指标增长提供了实用蓝图。

🎯

关键要点

Flipkart通过采用Prometheus的层次化联合设计，解决了监控可扩展性问题。
最初使用StatsD聚合指标，但无法扩展，导致历史分析不切实际。
转向Prometheus后，支持高维查询，并与Kubernetes和exporter生态系统良好集成。
层次化联合的核心在于本地Prometheus服务器收集指标，应用记录规则以降低指标基数。
通过/federate端点暴露聚合系列，联合服务器向上抓取选定的聚合指标。
Flipkart采用策略进一步降低基数，如对稳定维度（服务或集群）丢弃实例标签。
对于延迟指标，发布汇总统计而非每个实例系列，将8000万原始系列压缩为数万个集群级别指标。
层次化联合在调试实例异常时效果有限，建议在小型部署中谨慎使用。
Flipkart的经验强调了平面监控架构在规模上的局限性，展示了联合、聚合规则和标签修剪的有效性。
其他组织面对类似扩展挑战时，转向分布式系统如Thanos、Cortex/Mimir或VictoriaMetrics。
Thanos扩展Prometheus，提供长期存储和全局查询能力，但引入额外组件和操作开销。
Cortex和Mimir采用云原生的水平可扩展方法，使用多租户分布式时间序列数据库。
VictoriaMetrics在性能和压缩效率上强调，提供简单的单二进制设置，适合长期保留。
Flipkart选择层次化联合反映了控制、简单性和增量可扩展性之间的平衡。
随着组织进一步扩展，采用混合架构可能增强保留、跨集群查询和弹性。

🔎

延伸解读

层次化联合设计的优势

Flipkart通过层次化联合设计显著降低了监控指标的基数和中央服务器的负载。这种方法使得在云原生环境中处理大规模指标增长变得更加可行，尤其是在需要高维查询和与Kubernetes集成的场景中。

调试的局限性

尽管层次化联合设计在处理大规模数据时表现出色，但在调试实例异常时效果有限。对于小型部署，单一Prometheus实例可能更为高效，因此在选择架构时需考虑具体的使用场景和需求。

与其他系统的比较

Flipkart的方案与Thanos、Cortex/Mimir和VictoriaMetrics等分布式系统相比，强调了控制和简单性。虽然这些系统提供了更强的全球查询能力，但也引入了额外的复杂性和操作开销，适合不同规模和需求的组织选择。

❓

延伸问答

Flipkart是如何解决监控可扩展性问题的？

Flipkart通过采用Prometheus的层次化联合设计，显著降低了指标基数和中央服务器负载，从而解决了监控可扩展性问题。

Flipkart在监控中最初使用了什么工具？

Flipkart最初使用StatsD进行指标聚合，但发现其无法扩展。

层次化联合设计的核心机制是什么？

层次化联合设计的核心在于本地Prometheus服务器收集指标，并应用记录规则以降低指标基数。

Flipkart在处理延迟指标时采取了什么策略？

Flipkart对延迟指标发布汇总统计，而非每个实例系列，将8000万原始系列压缩为数万个集群级别指标。

Flipkart的层次化联合设计有哪些局限性？

层次化联合在调试实例异常时效果有限，建议在小型部署中谨慎使用。

其他组织在面对扩展挑战时通常选择什么解决方案？

其他组织通常转向分布式系统如Thanos、Cortex/Mimir或VictoriaMetrics来应对扩展挑战。

🏷️