DolphinScheduler笔记之9: 容错
原文中文,约5300字,阅读约需13分钟。发表于: 。1. 容错的必要性 分布式系统使用集群提高了算力,也天然需要面对和解决单机不稳定的问题,比如常说的宕机、掉盘、网络抖动等。 Jeff Dean 多年前在斯坦福有过一个分享1,其中一些数字我觉得应该是架构谨记的: Typical first year for a new cluster: ~1 network rewiring (rolling ~5% of machines down...
介绍了分布式调度系统 DolphinScheduler 的容错机制,采用 Master-Worker 的设计,通过 ZooKeeper 实现容错处理,但是 failover 需要重启任务。