亚马逊AWS官方博客 ·

利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署环境中构建无服务器数据仓库（一）云上云下数据同步方案设计

💡 原文中文，约7700字，阅读约需19分钟。

📝

内容提要

本文介绍了金融科技客户如何利用亚马逊云科技的无服务器数据仓库解耦方法来管理数据需求，包括使用Apache EMR Serverless、Apache DolphinScheduler和Amazon Athena等工具实现数据同步和处理。同时介绍了云上云下数据同步的架构设计和解决方案，以及数据完整性检查方法和亚马逊云科技DataSync的保证机制。亚马逊云科技提供丰富的产品和服务满足金融科技客户的数据安全和合规性需求。

🎯

关键要点

金融科技客户利用亚马逊云科技的无服务器数据仓库解耦方法管理数据需求。
使用Apache EMR Serverless、Apache DolphinScheduler和Amazon Athena等工具实现数据同步和处理。
介绍云上云下数据同步的架构设计和解决方案。
强调数据完整性检查方法和亚马逊云科技DataSync的保证机制。
亚马逊云科技提供丰富的产品和服务以满足金融科技客户的数据安全和合规性需求。
金融科技客户在本地存储敏感数据，采用混合架构以保持对敏感信息的控制。
数据通过亚马逊云科技 Direct Connect连接到云环境，流经Interface Endpoint for S3和PrivateLink。
EMR Serverless Job处理数据，实现数据仓库分层逻辑，确保高可靠性。
设计了软件级双向数据同步解决方案，包括存量数据和增量数据的同步。
自研的数据完整性检查和亚马逊云科技 DataSync提供的数据完整性保障。
总结金融科技客户对数据安全和合规的重视，越来越多的公司选择将业务数据存放在亚马逊云科技平台上。

❓

延伸问答

如何利用亚马逊云科技构建无服务器数据仓库？

可以通过使用Apache EMR Serverless、Apache DolphinScheduler和Amazon Athena等工具来实现数据同步和处理，构建无服务器数据仓库。

金融科技客户如何确保数据安全和合规性？

金融科技客户通过将敏感数据存储在本地，并采用混合架构来保持对敏感信息的控制，同时利用亚马逊云科技的服务满足数据安全和合规性需求。

云上云下数据同步的架构设计是怎样的？

云上云下数据同步架构通过亚马逊云科技 Direct Connect连接本地和云环境，数据流经Interface Endpoint for S3和PrivateLink，最终访问S3存储桶。

EMR Serverless Job在数据处理中的作用是什么？

EMR Serverless Job用于处理数据，实现数据仓库的分层逻辑，确保高可靠性，并支持通过Apache DolphinScheduler进行编排。

如何实现本地TiDB与亚马逊云科技 S3的数据同步？

可以使用TiDB Dumpling工具将数据从TiDB同步到亚马逊云科技 S3，具体命令可参考相关操作指南。

亚马逊云科技 DataSync如何保证数据完整性？

亚马逊云科技 DataSync在数据移动时执行实时校验和验证，确保写入目标的数据与从源读取的数据匹配。

🏷️