从原始数据到精炼数据:使用AWS Glue在S3中整理数据以供Athena查询
💡
原文英文,约400词,阅读约需2分钟。
📝
内容提要
数据工程师使用AWS Glue创建了一个完整的ETL流水线,包括Fetch CSV、Convert to Parquet和Curate Data三个作业,可以处理结构化或非结构化数据。流水线易于实施和维护,使用Athena查看S3中的数据。
🎯
关键要点
- 数据工程师使用AWS Glue创建了完整的ETL流水线。
- ETL流水线包括Fetch CSV、Convert to Parquet和Curate Data三个作业。
- 流水线可以处理结构化或非结构化数据。
- 触发器可以是手动或自动调度,执行名为Driver的Glue作业。
- Driver作业负责检查其他作业是否正在运行,并传递配置给Controller作业。
- Controller作业负责整个执行过程,确保流水线成功结束或失败,并处理重试。
- Amazon RDS用于记录每个步骤的日志。
- 第一个工作作业Fetch CSV从源(如RDS、S3、数据流等)获取CSV格式的数据并存储在S3中。
- 第二个工作作业Convert to Parquet在第一个作业完成后触发,将CSV文件转换为Parquet格式。
- 第三个工作作业Curate Data在第二个作业完成后执行,从S3获取Parquet格式的数据并进行整理。
- Glue Crawlers用于在S3上获取元数据供Athena使用。
- Athena用于查看S3中的数据,实施和维护简单。
➡️