💡
原文英文,约1000词,阅读约需4分钟。
📝
内容提要
一家公司在将阿里云DataWorks迁移到自建大数据平台时,遇到CPU负载激增和系统崩溃。调查发现问题源于调度器配置不当。通过调整DolphinScheduler的线程数和CPU限制,成功解决了CPU峰值问题,确保任务顺利执行。用户在修改线程设置时需平衡机器负载与并发任务需求。
🎯
关键要点
- 公司在将阿里云DataWorks迁移到自建大数据平台时遇到CPU负载激增和系统崩溃的问题。
- 调查发现问题源于调度器配置不当,而非任务数量过多。
- 通过调整DolphinScheduler的线程数和CPU限制,成功解决了CPU峰值问题,确保任务顺利执行。
- 用户在修改线程设置时需平衡机器负载与并发任务需求。
- 公司计划停用阿里云DataWorks,构建完全基于开源组件的大数据平台。
- 由于预算限制,初期仅购买了4台ECS服务器,所有组件在混合节点上运行。
- 在迁移过程中,逐步减少DataWorks资源,将节省的成本分配给自建平台。
- DolphinScheduler被选为调度平台,团队将离线任务从DataWorks迁移到DolphinScheduler。
- 在5分钟间隔触发时,ECS机器的CPU负载从5%激增至100%,导致系统崩溃。
- 经过调查,发现DolphinScheduler的线程和CPU配置不当是导致高CPU使用率的原因。
- 修改了DolphinScheduler的线程数和CPU限制后,CPU使用率稳定,任务顺利执行。
- 减少线程数会降低同时调度的任务数量,需根据服务器负载和并发任务需求进行调整。
➡️