京东广告基于Apache Doris的冷热数据分层实践
💡
原文中文,约7600字,阅读约需18分钟。
📝
内容提要
京东利用Apache Doris构建广告数据存储服务,提供实时报表和多维分析。随着数据量激增,存储资源成为瓶颈。通过冷热数据分层方案,优化存储和查询效率,降低成本。Doris 2.0支持冷数据存储于分布式系统,提升查询能力,存储成本降低约87%。
🎯
关键要点
- 京东利用Apache Doris构建广告数据存储服务,提供实时报表和多维分析。
- 数据量激增导致存储资源成为瓶颈,存储容量增加近十倍,但日查询请求量仅增长两倍。
- 通过冷热数据分层方案,优化存储和查询效率,降低成本。
- Doris 2.0支持冷数据存储于分布式系统,存储成本降低约87%。
- 冷热分层方案分为Doris冷数据入湖和Doris冷热数据分层两种。
- 数据湖方案通过SDC将冷数据迁移至数据湖,确保线上操作稳定性。
- 数据入湖方案的劣势包括需要ETL工具、查询复杂性增加和Schema变更支持问题。
- Doris冷热数据分层方案支持将冷数据存储于分布式存储系统,简化了存储管理。
- 在Doris 2.0升级过程中,遇到查询性能下降、分桶裁剪失效等问题,并进行了优化。
- 冷数据Schema Change操作存在退化和数据冗余问题,进行了Linked Schema Change和Light Schema Change优化。
- 实现了历史数据的自动结转和恢复工具,确保数据恢复过程的高效性和准确性。
- 通过冷热分层,存储成本大幅降低,查询能力提升超过10倍,维护工作简化。
❓
延伸问答
京东如何利用Apache Doris优化广告数据存储?
京东通过冷热数据分层方案优化广告数据存储,提升存储和查询效率,降低成本。
冷热数据分层方案的主要优势是什么?
冷热数据分层方案使存储成本降低约87%,并提升查询能力超过10倍,简化了存储管理。
Doris 2.0与1.2版本在冷热数据分层上有什么不同?
Doris 2.0支持将冷数据存储于分布式系统,简化了存储管理,而1.2版本主要基于本地磁盘。
在冷热数据分层方案中,冷数据如何处理?
冷数据通过TTL时间自动判断并迁移至相对廉价的存储介质,确保线上操作稳定性。
京东在实施冷热数据分层时遇到了哪些问题?
京东在实施过程中遇到查询性能下降、分桶裁剪失效等问题,并进行了相应的优化。
数据入湖方案的主要劣势是什么?
数据入湖方案需要ETL工具,增加了系统复杂性,并可能影响查询性能。
🏷️
标签
➡️