AWS 云上 MongoDB/DocumentDB 数据定期归档

AWS 云上 MongoDB/DocumentDB 数据定期归档

💡 原文中文,约8600字,阅读约需21分钟。
📝

内容提要

本文介绍了一套基于AWS无服务器化的自动归档与查询方案,可以大幅降低数据存储成本,同时保证一定的数据查询能力。方案主要分为两步:使用Glue定期抽取MongoDB/DocumentDB collection,并写入S3;使用Athena对S3归档数据进行查询。

🎯

关键要点

  • 本文介绍了一套基于AWS无服务器化的自动归档与查询方案。
  • 方案旨在降低数据存储成本,同时保证数据查询能力。
  • MongoDB和DocumentDB是广泛应用于多个行业的数据库。
  • 随着数据量增加,数据库的成本控制和查询性能面临挑战。
  • 部分数据在创建后不再频繁查询,适合归档到低成本存储。
  • 方案分为两步:使用Glue抽取数据并写入S3,使用Athena查询S3数据。
  • Glue定期抽取MongoDB/DocumentDB collection,并将数据写入S3。
  • Amazon DocumentDB与MongoDB兼容,提供托管服务。
  • AWS Glue是一项无服务器数据集成服务,支持数据发现和准备。
  • Amazon S3提供高可用性和安全性的对象存储服务。
  • Amazon Athena允许使用SQL直接查询S3中的数据。
  • Glue配置步骤包括创建VPC Endpoint、S3桶和ETL作业。
  • Glue ETL作业从MongoDB/DocumentDB读取数据并写入S3。
  • Athena查询步骤包括配置Glue Crawlers和查询S3归档数据。
  • 通过归档到S3,存储成本可降低65%以上。
  • 整体方案降低了客户的运维管理负担,适合数据量大的业务场景。
➡️

继续阅读