InfoQ ·

Flipkart通过层次化联合设计将Prometheus扩展至8000万指标

💡 原文英文，约700词，阅读约需3分钟。

📝

内容提要

Flipkart通过采用Prometheus的层次化联合设计，解决了监控可扩展性问题。最初使用StatsD聚合指标，但无法扩展。转向Prometheus后，通过本地服务器收集指标并通过/federate端点聚合，显著降低了指标基数和中央服务器负载。尽管在调试实例异常时效果有限，但该方法为应对云原生环境中的指标增长提供了实用蓝图。

🎯

关键要点

Flipkart通过采用Prometheus的层次化联合设计，解决了监控可扩展性问题。
最初使用StatsD聚合指标，但无法扩展，导致历史分析不切实际。
转向Prometheus后，支持高维查询，并与Kubernetes和exporter生态系统良好集成。
层次化联合的核心在于本地Prometheus服务器收集指标，应用记录规则以降低指标基数。
通过/federate端点暴露聚合系列，联合服务器向上抓取选定的聚合指标。
Flipkart采用策略进一步降低基数，如对稳定维度（服务或集群）丢弃实例标签。
对于延迟指标，发布汇总统计而非每个实例系列，将8000万原始系列压缩为数万个集群级别指标。
层次化联合在调试实例异常时效果有限，建议在小型部署中谨慎使用。
Flipkart的经验强调了平面监控架构在规模上的局限性，展示了联合、聚合规则和标签修剪的有效性。
其他组织面对类似扩展挑战时，转向分布式系统如Thanos、Cortex/Mimir或VictoriaMetrics。
Thanos扩展Prometheus，提供长期存储和全局查询能力，但引入额外组件和操作开销。
Cortex和Mimir采用云原生的水平可扩展方法，使用多租户分布式时间序列数据库。
VictoriaMetrics在性能和压缩效率上强调，提供简单的单二进制设置，适合长期保留。
Flipkart选择层次化联合反映了控制、简单性和增量可扩展性之间的平衡。
随着组织进一步扩展，采用混合架构可能增强保留、跨集群查询和弹性。

🏷️

继续阅读

设计解耦：亿级向量搜索
该查询引擎通过分离存储与计算降低成本，但引入了网络延迟。查询过程包括请求解析、近邻搜索、获取全精度向量和重新排序。引擎使用Rust编写，采用双线程池以避免...
Umair Shahid：将PostgreSQL高可用性视为分层设计
PostgreSQL的高可用性应采用分层设计，首先明确故障范围、恢复点目标（RPO）和恢复时间目标（RTO）。从单主节点开始，逐步引入离线备份、WAL归档...
劝说设计：十年后的反思
十年来，劝说设计已发展为行为设计，强调理解用户动机与环境。成功设计需关注内在需求，避免单纯依赖游戏机制。团队应采用系统思维，识别行为障碍，制定策略，以确保...
变更作为指标：通过变更交付信号衡量系统可靠性
系统变更是生产事故的主要原因，因此变更相关指标应被视为可靠性信号。关键指标包括变更交付时间、成功率和事故泄漏率。通过事件驱动的数据架构，组织可以有效监测和...
火狐浏览器将对UI界面进行大规模重新设计采用浮动式元素提供立体感
火狐浏览器正在进行名为Firefox Nova的UI界面大规模重新设计，采用丰富色彩和浮动元素，增强立体感。最终版本可能与早期模型有较大差异。
Canva可画推动设计思维的转变与实践
Canva与播客《搞钱女孩》联合举办“38创作夜校”，吸引50多位参与者，旨在将模糊想法转化为可视化方案。Canva利用AI和模板帮助用户快速创意，降低创...

Flipkart通过层次化联合设计将Prometheus扩展至8000万指标

内容提要

关键要点

标签

继续阅读