Cisco 使用 Apache DolphinScheduler 在 AWS 构建大数据系统实践

Cisco 使用 Apache DolphinScheduler 在 AWS 构建大数据系统实践

💡 原文中文,约3900字,阅读约需10分钟。
📝

内容提要

Apache DolphinScheduler是一个分布式可视化任务调度开源系统,解决大数据任务依赖和数据研发ETL依赖复杂的问题。Cisco数据团队基于DolphinScheduler进行二次开发,与AWS云上的资源特性深度融合,增加了资源依赖和存储管理、Docker镜像管理、安全访问和权限管理、自动化云上资源管理等新功能。未来计划优化镜像推送、一键同步功能、自动映射至Auth系统和权限控制。

🎯

关键要点

  • Apache DolphinScheduler 是一个分布式可视化任务调度开源系统,旨在解决大数据任务依赖问题。
  • Cisco 数据团队基于 DolphinScheduler 进行二次开发,增加了与 AWS 云资源的深度融合。
  • 调度平台支持简易的 ETL 任务定义,支持多计算集群架构和 AWS 资源的安全管理。
  • DolphinScheduler 的所有服务均部署在 Webex 数据中心,支持跨多个 AWS 区域的任务调度管理。
  • 团队改进了 DolphinScheduler 对 S3 的支持,支持多个 S3 Bucket 的数据存储和访问。
  • Docker 镜像管理迁移至 Amazon ECR,统一管理和预览镜像。
  • 安全访问和权限管理通过 AWS Secrets Manager 和 IAM Role 提升系统安全性。
  • 团队通过 Auth 系统管理 AWS 资源的权限和访问控制,支持多 AWS 账户管理。
  • 实施 Init Container 服务以动态管理和初始化 AWS 资源,简化资源配置。
  • 通过 Terraform 自动化 AWS 资源的配置和管理,简化权限设定。
  • 未来计划优化镜像推送、一键同步功能、自动映射至 Auth 系统和权限控制。
➡️

继续阅读