💡
原文英文,约1900词,阅读约需7分钟。
📝
内容提要
Databricks推出了新的监控平台Pantheon,基于开源项目Thanos,能够实时处理50亿个活动时间序列,每天接收超过10万亿个样本。通过优化存储架构和聚合策略,Pantheon提高了监控系统的可靠性和效率,降低了云成本,减少了手动操作,并与Databricks的湖仓架构结合,提升了工程师的工作效率。
🎯
关键要点
- Databricks推出了新的监控平台Pantheon,基于开源项目Thanos,能够实时处理50亿个活动时间序列,每天接收超过10万亿个样本。
- Pantheon通过优化存储架构和聚合策略,提高了监控系统的可靠性和效率,降低了云成本,减少了手动操作。
- Pantheon的架构采用分层存储,最新的时间序列保存在内存中,过去24小时的数据保存在磁盘上,所有旧数据存储在对象存储中。
- Pantheon引入了专门的控制平面,负责协调Thanos组件的生命周期和容量决策,以实现自动化和最小化人工干预。
- 为了应对快速增长的基数,Pantheon采用了聚合策略,去除高成本标签,同时提供服务所有者的聚合视图。
- Hydra是一个新的原始故障排除数据平台,能够处理200亿个未聚合的活动时间序列,数据存储成本比Thanos低50倍。
- Hydra与Grafana集成,支持PromQL查询,使工程师能够使用熟悉的界面进行高基数指标的调试。
- Hydra的设计原则是统一指标语义,简化工程师的使用体验,减少认知负担。
❓
延伸问答
Databricks的新监控平台Pantheon有什么特点?
Pantheon基于开源项目Thanos,能够实时处理50亿个活动时间序列,每天接收超过10万亿个样本,优化了存储架构和聚合策略,提高了监控系统的可靠性和效率。
Pantheon如何降低云成本和减少手动操作?
Pantheon通过优化存储架构和引入专门的控制平面,减少了监控基础设施的停机时间,并降低了人工干预的需求,从而节省了云成本。
Hydra平台与Pantheon有什么不同之处?
Hydra是一个新的故障排除数据平台,能够处理200亿个未聚合的活动时间序列,数据存储成本比Thanos低50倍,专注于高基数指标的调试。
Pantheon是如何处理高基数指标的?
Pantheon采用聚合策略,去除高成本标签,同时提供服务所有者的聚合视图,以应对快速增长的基数。
Databricks如何确保监控系统的可靠性?
Databricks通过开发新的TSDB Pantheon,优化存储架构,并引入控制平面来自动化组件生命周期管理,从而提高监控系统的可靠性。
Hydra如何与Grafana集成?
Hydra直接与Grafana集成,支持PromQL查询,使工程师能够使用熟悉的界面进行高基数指标的调试。
➡️