流批一体的近实时数仓的思考与设计
原文中文,约8200字,阅读约需20分钟。发表于: 。基于对数据时间旅行的思考,引出了对目前三种数仓形态和两种数仓架构的思考。结合数据湖在 Flink 的应用和数据湖元数据类型的思考,探索了基于数据湖的 Flink SQL 流批一体的实践,在流批一体 SQL 表达一致、结果一致性、流批任务分离、混合调度依赖等进行了设计和探索。
本文探讨了离线、近实时、实时三种数仓在时间维度下的成因和Lambda、Kappa架构在时间维度下的取舍。同时,提出了基于实时数仓的确定性问题,探讨了数仓一体的可行性思考。文章认为,基于离线数仓的思考,结果的确定性是很重要的,同时要保证计算结果同离线数仓的一致性。最终的任务运行方式同时包含三种:实时模式、离线模式、业务模式,分别对应着不同的数据准确性级别。基于 Flink 和数据湖的流批一体近实时数仓设计示例,需要解决如下问题:Flink 任务支持批量计算能力要持续不断的加强,如何使用同一份 Flink SQL,既可以用于批任务调度,又可以用于流任务运行呢,批任务的调度和流任务的计算如何分离,流任务的 Insert into 如何实现主键写入,流批任务的调度依赖。