DEV Community ·

从原始数据到精炼数据：使用AWS Glue在S3中整理数据以供Athena查询

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

数据工程师使用AWS Glue创建了一个完整的ETL流水线，包括Fetch CSV、Convert to Parquet和Curate Data三个作业，可以处理结构化或非结构化数据。流水线易于实施和维护，使用Athena查看S3中的数据。

🎯

关键要点

数据工程师使用AWS Glue创建了完整的ETL流水线。
ETL流水线包括Fetch CSV、Convert to Parquet和Curate Data三个作业。
流水线可以处理结构化或非结构化数据。
触发器可以是手动或自动调度，执行名为Driver的Glue作业。
Driver作业负责检查其他作业是否正在运行，并传递配置给Controller作业。
Controller作业负责整个执行过程，确保流水线成功结束或失败，并处理重试。
Amazon RDS用于记录每个步骤的日志。
第一个工作作业Fetch CSV从源（如RDS、S3、数据流等）获取CSV格式的数据并存储在S3中。
第二个工作作业Convert to Parquet在第一个作业完成后触发，将CSV文件转换为Parquet格式。
第三个工作作业Curate Data在第二个作业完成后执行，从S3获取Parquet格式的数据并进行整理。
Glue Crawlers用于在S3上获取元数据供Athena使用。
Athena用于查看S3中的数据，实施和维护简单。

❓

延伸问答

AWS Glue的ETL流水线包含哪些主要作业？

ETL流水线包含Fetch CSV、Convert to Parquet和Curate Data三个作业。

如何使用AWS Glue处理结构化和非结构化数据？

AWS Glue的ETL流水线可以处理结构化或非结构化数据，实施和维护简单。

Driver作业在AWS Glue中负责什么？

Driver作业负责检查其他作业是否正在运行，并传递配置给Controller作业。

Fetch CSV作业的主要功能是什么？

Fetch CSV作业从源获取CSV格式的数据并存储在S3中。

Convert to Parquet作业的作用是什么？

Convert to Parquet作业在Fetch CSV完成后触发，将CSV文件转换为Parquet格式。

Athena在AWS Glue ETL流水线中有什么用途？

Athena用于查看S3中的数据，实施和维护简单。

🏷️

标签

AWS Glue ETL流水线 athena aws s3 数据工程师结构化数据非结构化数据

➡️

继续阅读

AWS Introduces Durable Storage Option for ElastiCache for Valkey
AWS has recently introduced durability for Amazon ElastiCache for Valkey, ena...
AWS Introduces CDK Mixins for Composable Infrastructure Abstractions
AWS recently announced CDK Mixins, a new AWS CDK feature that lets developers...
从华尔街到数据平台
本文讨论了Databricks全球金融服务市场领导者Kim Hatton的职业经历及其对市场与技术交汇的看法。她指出，金融机构在扩展AI时面临的主要挑战是...
人工智能是否已经扼杀了实用类非小说书籍？销售趋势、我的个人数据以及这对未来可能意味着什么
人工智能正在迅速改变非小说类书籍市场。2026年，成人非小说类书籍销量预计下降9%，自助类书籍下降26.3%。Tim Ferriss的书籍销量预计将比20...
Radim Marek：你在NOT IN中的NULL
在SQL中，使用NOT IN查询时，如果右侧子查询包含NULL值，可能导致返回空结果集。为避免这种情况，建议使用NOT EXISTS替代NOT IN。Po...
FBI建立了一个小镇以模拟网络攻击
FBI在阿拉巴马州亨茨维尔建立了一个名为Kinetic Cyber Range的模拟网络攻击小镇，面积22,000平方英尺，设有便利店、加油站和医院等设施...