💡
原文中文,约3900字,阅读约需10分钟。
📝
内容提要
Apache DolphinScheduler是一个分布式可视化任务调度开源系统,解决大数据任务依赖和数据研发ETL依赖复杂的问题。Cisco数据团队基于DolphinScheduler进行二次开发,与AWS云上的资源特性深度融合,增加了资源依赖和存储管理、Docker镜像管理、安全访问和权限管理、自动化云上资源管理等新功能。未来计划优化镜像推送、一键同步功能、自动映射至Auth系统和权限控制。
🎯
关键要点
- Apache DolphinScheduler 是一个分布式可视化任务调度开源系统,旨在解决大数据任务依赖问题。
- Cisco 数据团队基于 DolphinScheduler 进行二次开发,增加了与 AWS 云资源的深度融合。
- 调度平台支持简易的 ETL 任务定义,支持多计算集群架构和 AWS 资源的安全管理。
- DolphinScheduler 的所有服务均部署在 Webex 数据中心,支持跨多个 AWS 区域的任务调度管理。
- 团队改进了 DolphinScheduler 对 S3 的支持,支持多个 S3 Bucket 的数据存储和访问。
- Docker 镜像管理迁移至 Amazon ECR,统一管理和预览镜像。
- 安全访问和权限管理通过 AWS Secrets Manager 和 IAM Role 提升系统安全性。
- 团队通过 Auth 系统管理 AWS 资源的权限和访问控制,支持多 AWS 账户管理。
- 实施 Init Container 服务以动态管理和初始化 AWS 资源,简化资源配置。
- 通过 Terraform 自动化 AWS 资源的配置和管理,简化权限设定。
- 未来计划优化镜像推送、一键同步功能、自动映射至 Auth 系统和权限控制。
➡️