利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署环境中构建无服务器数据仓库（二）Apache DolphinScheduler 集成以及 LOB 粒度资源消费分析

亚马逊AWS官方博客 ·

利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署环境中构建无服务器数据仓库（二）Apache DolphinScheduler 集成以及 LOB 粒度资源消费分析

💡 原文中文，约5700字，阅读约需14分钟。

📝

内容提要

本文介绍了利用亚马逊云科技的云原生服务和开源社区产品构建无服务器数据仓库的解耦方法，集成Apache DolphinScheduler和EMR Serverless实现高效可靠的数据编排和处理，切换DolphinScheduler的存储层到S3并通过S3上传作业脚本，以及通过标签机制实现LOB粒度的资源消费分析。

🎯

关键要点

企业寻求高性能解决方案以管理增长的数据需求。
介绍了如何利用亚马逊云科技和开源产品构建无服务器数据仓库的解耦方法。
Apache DolphinScheduler与EMR Serverless集成，实现高效的数据编排和处理。
EMR Serverless提供LOB级别的资源消费分析，适合金融科技客户。
DolphinScheduler与EMR Serverless解耦部署，提高系统可靠性。
DolphinScheduler支持低代码创建高性能工作流程，解决复杂任务依赖关系。
将DolphinScheduler的存储层从HDFS切换到S3的步骤。
确保通过S3上传的作业脚本可以在DolphinScheduler中找到和操作。
实现作业状态捕获和处理，以便DAG能够根据作业状态执行。
推荐使用DolphinScheduler的稳定版本，3.1.4版本表现最佳。
亚马逊云科技的成本分配标签机制满足企业客户的资源消费分析需求。
通过激活标签，可以在账单控制台中可视化资源消费情况。
总结了填补DolphinScheduler与新一代Serverless架构之间的gap的方法。

🏷️

继续阅读

在线教程丨免费CPU资源快速部署，覆盖Qwen3.5/DeepSeek-R1/Gemma 3/Llama 3.2等热门开源模型
开源模型迭代迅速，开发者希望低门槛部署新模型，但GPU成本和环境配置仍是障碍。HyperAI提供免费CPU配额和在线教程，帮助开发者快速体验模型。
年度征文 | 信息消费：七年后的再审视
本文探讨了信息消费的变化与个人阅读习惯的转变，强调在信息过载中保持警觉与判断力的重要性。作者反思科技与理性的偏好，认识到虚构作品和感性表达的价值，指出理性...
商业智能分析：AI时代的完整指南
数据智能是现代商业智能的基础，通过学习数据结构和实时反馈提升分析能力。结合复合AI，数据智能高效处理分析工作流，帮助各业务部门快速获取洞察，显著提高企业决...
大模型推理资源需求计算及使用场景示例
博客自2016年成立以来，逐步接入CDN并添加功能，如音乐墙、动态和时光，至2021年更新了站点地图。
记忆不上云：mem9 + TiDB 打造 OpenClaw 私有记忆中枢
在本地化前，记忆数据存储在 mem9.ai 云端。迁移时只需更新租户记录，将 db_host 改为本地 TiDB，其他逻辑保持不变。数据平面独立，存储后端可随时替换。
揭穿关于Elastic Cloud无服务器的5个神话
Elasticsearch的知识可迁移，查询语言和数据模型一致。Kibana中的索引、数据流和映射适用于搜索、可观察性和安全性，现有的Elasticsea...