实时和离线

实时和离线

💡 原文中文,约3200字,阅读约需8分钟。
📝

内容提要

文章讨论了离线数据处理的时间边界和调度问题,提出了离线数仓任务的模型和任务调度系统。还讨论了微批处理和流处理的模型变化,以及T+1和流处理任务的调度要求和差异。最后,提出了一套统一开发和管理任务的平台。

🎯

关键要点

  • 时间分为处理时间和事件时间,离线数据处理通常选择事件时间。
  • T+1 数据处理模型通过合并增量数据生成全量表或拉链表。
  • 任务调度系统在离线数仓任务中起到关键作用,支持任务的依赖检查和执行。
  • 微批处理时间间隔更小,需优化数据处理以避免无用计算和存储。
  • Micro Batch 模型关注变化数据的产出,需支持 upsert 的存储系统。
  • 流处理模型与微批处理相比,SQL 语义和处理方式有显著变化。
  • 调度系统对离线任务至关重要,流处理任务的调度概念更轻。
  • 调度的稳定性和准确性对批处理和流处理任务都很重要。
  • 统一的开发和管理平台可以提高任务管理的效率和一致性。
  • K8S 提供多种资源对象,支持一次性和长时间运行任务的统一管理。
➡️

继续阅读