💡 原文英文,约1000词,阅读约需4分钟。
📝

内容提要

一家公司在将阿里云DataWorks迁移到自建大数据平台时,遇到CPU负载激增和系统崩溃。调查发现问题源于调度器配置不当。通过调整DolphinScheduler的线程数和CPU限制,成功解决了CPU峰值问题,确保任务顺利执行。用户在修改线程设置时需平衡机器负载与并发任务需求。

🎯

关键要点

  • 公司在将阿里云DataWorks迁移到自建大数据平台时遇到CPU负载激增和系统崩溃的问题。
  • 调查发现问题源于调度器配置不当,而非任务数量过多。
  • 通过调整DolphinScheduler的线程数和CPU限制,成功解决了CPU峰值问题,确保任务顺利执行。
  • 用户在修改线程设置时需平衡机器负载与并发任务需求。
  • 公司计划停用阿里云DataWorks,构建完全基于开源组件的大数据平台。
  • 由于预算限制,初期仅购买了4台ECS服务器,所有组件在混合节点上运行。
  • 在迁移过程中,逐步减少DataWorks资源,将节省的成本分配给自建平台。
  • DolphinScheduler被选为调度平台,团队将离线任务从DataWorks迁移到DolphinScheduler。
  • 在5分钟间隔触发时,ECS机器的CPU负载从5%激增至100%,导致系统崩溃。
  • 经过调查,发现DolphinScheduler的线程和CPU配置不当是导致高CPU使用率的原因。
  • 修改了DolphinScheduler的线程数和CPU限制后,CPU使用率稳定,任务顺利执行。
  • 减少线程数会降低同时调度的任务数量,需根据服务器负载和并发任务需求进行调整。
➡️

继续阅读