💡
原文英文,约600词,阅读约需3分钟。
📝
内容提要
该课程包含6个模块和2个研讨会,重点讲解数据工程的核心主题,使用Slack和GitHub进行互动。内容涵盖环境设置、工作流编排、数据仓库、数据转换、批处理和实时数据处理。学员需完成综合数据工程项目以获得证书。
🎯
关键要点
- 课程包含6个模块和2个研讨会,重点讲解数据工程的核心主题。
- 使用Slack和GitHub进行互动,提供Q&A环节和讨论。
- 环境设置使用GitHub Codespaces或云虚拟机,简化启动过程。
- 第一周:环境设置和基础知识,重点工具包括Docker和Terraform。
- 第二周:工作流编排,使用Kestra工具简化脚本。
- 第三周:数据仓库,使用Google BigQuery存储和查询大数据集。
- 第四周:使用DBT进行数据转换和可视化。
- 第五周:批处理,使用Apache Spark进行数据管道控制。
- 第六周:流处理和实时数据处理,使用Kafka和RisingWave。
- 最终项目要求创建综合数据工程项目以获得证书。
- 参与者需具备Python基础和命令行知识,时间灵活。
- 成功完成最终项目后颁发证书,作业提交计入内部排名系统。
- 建议在GitHub上贡献,参与社区互动。
- 尽管科技裁员,数据工程师的需求依然强劲,掌握GCP、AWS和Azure等平台技能有价值。
- 课程免费,旨在与社区分享知识,得到赞助商支持。
- 建议考虑学习Kimball方法论以提升数据架构能力。
➡️