亚马逊AWS官方博客 ·

利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署环境中构建无服务器数据仓库（二）Apache DolphinScheduler 集成以及 LOB 粒度资源消费分析

💡 原文中文，约5700字，阅读约需14分钟。

📝

内容提要

本文介绍了利用亚马逊云科技的云原生服务和开源社区产品构建无服务器数据仓库的解耦方法，集成Apache DolphinScheduler和EMR Serverless实现高效可靠的数据编排和处理，切换DolphinScheduler的存储层到S3并通过S3上传作业脚本，以及通过标签机制实现LOB粒度的资源消费分析。

🎯

关键要点

企业寻求高性能解决方案以管理增长的数据需求。
介绍了如何利用亚马逊云科技和开源产品构建无服务器数据仓库的解耦方法。
Apache DolphinScheduler与EMR Serverless集成，实现高效的数据编排和处理。
EMR Serverless提供LOB级别的资源消费分析，适合金融科技客户。
DolphinScheduler与EMR Serverless解耦部署，提高系统可靠性。
DolphinScheduler支持低代码创建高性能工作流程，解决复杂任务依赖关系。
将DolphinScheduler的存储层从HDFS切换到S3的步骤。
确保通过S3上传的作业脚本可以在DolphinScheduler中找到和操作。
实现作业状态捕获和处理，以便DAG能够根据作业状态执行。
推荐使用DolphinScheduler的稳定版本，3.1.4版本表现最佳。
亚马逊云科技的成本分配标签机制满足企业客户的资源消费分析需求。
通过激活标签，可以在账单控制台中可视化资源消费情况。
总结了填补DolphinScheduler与新一代Serverless架构之间的gap的方法。

❓

延伸问答

如何利用 Amazon EMR Serverless 和 Apache DolphinScheduler 构建无服务器数据仓库？

通过解耦部署 Apache DolphinScheduler 和 EMR Serverless，实现高效的数据编排和处理，满足企业的数据需求。

DolphinScheduler 如何与 EMR Serverless 集成？

DolphinScheduler 与 EMR Serverless 解耦部署，通过低代码创建高性能工作流程，实现作业编排。

如何将 DolphinScheduler 的存储层从 HDFS 切换到 S3？

编辑 DolphinScheduler 的配置文件，将资源存储类型设置为 S3，并重启相关服务以完成切换。

DolphinScheduler 如何实现 LOB 粒度的资源消费分析？

通过亚马逊云科技的成本分配标签机制，企业可以对资源消费进行 LOB 粒度的统计和可视化。

DolphinScheduler 的哪个版本最稳定？

经过实战测试，DolphinScheduler 3.1.4 版本表现最为稳定。

如何确保通过 S3 上传的作业脚本可以在 DolphinScheduler 中操作？

需要将所有脚本的元数据插入到 DolphinScheduler 的资源管理表中，以便能够在控制台中找到和操作这些脚本。

🏷️