每天10万亿个样本:在Databricks超越传统监控基础设施的扩展

每天10万亿个样本:在Databricks超越传统监控基础设施的扩展

💡 原文英文,约1900词,阅读约需7分钟。
📝

内容提要

Databricks推出了新的监控平台Pantheon,基于开源项目Thanos,能够实时处理50亿个活动时间序列,每天接收超过10万亿个样本。通过优化存储架构和聚合策略,Pantheon提高了监控系统的可靠性和效率,降低了云成本,减少了手动操作,并与Databricks的湖仓架构结合,提升了工程师的工作效率。

🎯

关键要点

  • Databricks推出了新的监控平台Pantheon,基于开源项目Thanos,能够实时处理50亿个活动时间序列,每天接收超过10万亿个样本。
  • Pantheon通过优化存储架构和聚合策略,提高了监控系统的可靠性和效率,降低了云成本,减少了手动操作。
  • Pantheon的架构采用分层存储,最新的时间序列保存在内存中,过去24小时的数据保存在磁盘上,所有旧数据存储在对象存储中。
  • Pantheon引入了专门的控制平面,负责协调Thanos组件的生命周期和容量决策,以实现自动化和最小化人工干预。
  • 为了应对快速增长的基数,Pantheon采用了聚合策略,去除高成本标签,同时提供服务所有者的聚合视图。
  • Hydra是一个新的原始故障排除数据平台,能够处理200亿个未聚合的活动时间序列,数据存储成本比Thanos低50倍。
  • Hydra与Grafana集成,支持PromQL查询,使工程师能够使用熟悉的界面进行高基数指标的调试。
  • Hydra的设计原则是统一指标语义,简化工程师的使用体验,减少认知负担。

延伸问答

Databricks的新监控平台Pantheon有什么特点?

Pantheon基于开源项目Thanos,能够实时处理50亿个活动时间序列,每天接收超过10万亿个样本,优化了存储架构和聚合策略,提高了监控系统的可靠性和效率。

Pantheon如何降低云成本和减少手动操作?

Pantheon通过优化存储架构和引入专门的控制平面,减少了监控基础设施的停机时间,并降低了人工干预的需求,从而节省了云成本。

Hydra平台与Pantheon有什么不同之处?

Hydra是一个新的故障排除数据平台,能够处理200亿个未聚合的活动时间序列,数据存储成本比Thanos低50倍,专注于高基数指标的调试。

Pantheon是如何处理高基数指标的?

Pantheon采用聚合策略,去除高成本标签,同时提供服务所有者的聚合视图,以应对快速增长的基数。

Databricks如何确保监控系统的可靠性?

Databricks通过开发新的TSDB Pantheon,优化存储架构,并引入控制平面来自动化组件生命周期管理,从而提高监控系统的可靠性。

Hydra如何与Grafana集成?

Hydra直接与Grafana集成,支持PromQL查询,使工程师能够使用熟悉的界面进行高基数指标的调试。

➡️

继续阅读