DolphinScheduler笔记之6: 依赖任务DependentTaskProcessor
原文中文,约6900字,阅读约需17分钟。发表于: 。1. 为什么要有任务依赖? 大数据的离线场景中,任务每次执行更新一个新的 Hive 分区,分区基本都是时间相关的,比如天、小时分区。 写入 ODS 表新分区的任务执行完成后,接着执行写入 DWD 表新分区的任务,因此任务之间是有严格的依赖关系的。因为 ODS 是 DWD 的输入,如果任务启动时间过早,DWD 任务就会读不到或者读到一个空分区导致任务失败/数据错误。...
本文介绍了 DolphinScheduler 中任务依赖的实现方式,任务依赖在大数据离线场景中非常重要,可以避免任务执行失败或数据错误。DolphinScheduler 采用了轮询机制来实现任务依赖,同时支持且或关系。应当尽可能在本地缓存任务查询结果,避免重复远程请求,造成服务端、DB的压力。