京东广告基于Apache Doris的冷热数据分层实践

💡 原文中文,约7600字,阅读约需18分钟。
📝

内容提要

京东利用Apache Doris构建广告数据存储服务,提供实时报表和多维分析。随着数据量激增,存储资源成为瓶颈。通过冷热数据分层方案,优化存储和查询效率,降低成本。Doris 2.0支持冷数据存储于分布式系统,提升查询能力,存储成本降低约87%。

🎯

关键要点

  • 京东利用Apache Doris构建广告数据存储服务,提供实时报表和多维分析。
  • 数据量激增导致存储资源成为瓶颈,存储容量增加近十倍,但日查询请求量仅增长两倍。
  • 通过冷热数据分层方案,优化存储和查询效率,降低成本。
  • Doris 2.0支持冷数据存储于分布式系统,存储成本降低约87%。
  • 冷热分层方案分为Doris冷数据入湖和Doris冷热数据分层两种。
  • 数据湖方案通过SDC将冷数据迁移至数据湖,确保线上操作稳定性。
  • 数据入湖方案的劣势包括需要ETL工具、查询复杂性增加和Schema变更支持问题。
  • Doris冷热数据分层方案支持将冷数据存储于分布式存储系统,简化了存储管理。
  • 在Doris 2.0升级过程中,遇到查询性能下降、分桶裁剪失效等问题,并进行了优化。
  • 冷数据Schema Change操作存在退化和数据冗余问题,进行了Linked Schema Change和Light Schema Change优化。
  • 实现了历史数据的自动结转和恢复工具,确保数据恢复过程的高效性和准确性。
  • 通过冷热分层,存储成本大幅降低,查询能力提升超过10倍,维护工作简化。

延伸问答

京东如何利用Apache Doris优化广告数据存储?

京东通过冷热数据分层方案优化广告数据存储,提升存储和查询效率,降低成本。

冷热数据分层方案的主要优势是什么?

冷热数据分层方案使存储成本降低约87%,并提升查询能力超过10倍,简化了存储管理。

Doris 2.0与1.2版本在冷热数据分层上有什么不同?

Doris 2.0支持将冷数据存储于分布式系统,简化了存储管理,而1.2版本主要基于本地磁盘。

在冷热数据分层方案中,冷数据如何处理?

冷数据通过TTL时间自动判断并迁移至相对廉价的存储介质,确保线上操作稳定性。

京东在实施冷热数据分层时遇到了哪些问题?

京东在实施过程中遇到查询性能下降、分桶裁剪失效等问题,并进行了相应的优化。

数据入湖方案的主要劣势是什么?

数据入湖方案需要ETL工具,增加了系统复杂性,并可能影响查询性能。

➡️

继续阅读