DEV Community ·

从原始数据到精炼数据：使用AWS Glue在S3中整理数据以供Athena查询

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

数据工程师使用AWS Glue创建了一个完整的ETL流水线，包括Fetch CSV、Convert to Parquet和Curate Data三个作业，可以处理结构化或非结构化数据。流水线易于实施和维护，使用Athena查看S3中的数据。

🎯

关键要点

数据工程师使用AWS Glue创建了完整的ETL流水线。
ETL流水线包括Fetch CSV、Convert to Parquet和Curate Data三个作业。
流水线可以处理结构化或非结构化数据。
触发器可以是手动或自动调度，执行名为Driver的Glue作业。
Driver作业负责检查其他作业是否正在运行，并传递配置给Controller作业。
Controller作业负责整个执行过程，确保流水线成功结束或失败，并处理重试。
Amazon RDS用于记录每个步骤的日志。
第一个工作作业Fetch CSV从源（如RDS、S3、数据流等）获取CSV格式的数据并存储在S3中。
第二个工作作业Convert to Parquet在第一个作业完成后触发，将CSV文件转换为Parquet格式。
第三个工作作业Curate Data在第二个作业完成后执行，从S3获取Parquet格式的数据并进行整理。
Glue Crawlers用于在S3上获取元数据供Athena使用。
Athena用于查看S3中的数据，实施和维护简单。

🏷️

继续阅读

首个物理AI数据基座平台“无垠”落户浙江，专治机器人数据荒，家庭工业商业场景全覆盖
浙江推出首个物理AI数据基座平台“无垠”，旨在解决机器人数据短缺问题。该平台结合真实数据与虚拟仿真，提供高质量数据，支持具身智能的训练与应用，推动行业发展。
Windows 11日历集成还未推出微软称需要继续优化体验(可能放弃WebView?)
#系统资讯 Windows 11 通知中心的日历集成还未推出，微软称需要继续优化体验，确保提供可靠和高质量的功能。在去年 12 月微软在 Windows ...
华为发布五大创新解决方案，推动交通运输行业智能化转型
在2026年巴塞罗那MWC上，华为推出五大创新解决方案，推动交通运输智能化转型，涵盖城市智能交通、铁路通信、海关大数据和港口调度等领域，标志着技术突破与合作进展。
TDK在印度设立亚太区域总部，启用双城行政管理架构
TDK公司将在印度班加罗尔设立亚太区域总部，2026年4月1日启用，采用“双城”管理架构，班加罗尔负责增长战略，新加坡负责治理与合规。
Qt Group与高通合作，简化工业AI设备开发流程
Qt Group与高通合作，优化Qt框架以支持高通物联网处理器，简化边缘AI设备的开发。开发者可通过Qt Edge AI API轻松实现复杂应用，无需深入...
OpenAI宣布收购AI安全初创公司Promptfoo 可以提高智能体的安全防御能力
OpenAI 收购了 AI 安全初创公司 Promptfoo，旨在提升 AI 智能体的安全性。Promptfoo 成立于 2024 年，估值 8600 万...

从原始数据到精炼数据：使用AWS Glue在S3中整理数据以供Athena查询

内容提要

关键要点

标签

继续阅读