在#DEZOOMCAMP的第二模块中,学习了使用Kestra进行工作流编排,成功处理纽约出租车数据,掌握了任务调度、数据管道和ETL实践,实现了CSV数据自动加载到BigQuery,并具备时区感知调度功能。
本文介绍了如何使用Kestra和Postgres建立ETL管道,处理2019年至2021年纽约出租车数据。该流程涵盖数据的提取、转换和加载,支持动态选择出租车类型和处理月份。通过Shell命令从GitHub下载数据,使用Docker创建Postgres数据库,并编写SQL查询以创建数据表。数据处理确保无重复记录,并优化存储管理。最终经过测试和调整,确保管道的准确性和灵活性。
完成下面两步后,将自动完成登录并继续当前操作。