数据工程Zoomcamp 2025届:简介 - 自学笔记

数据工程Zoomcamp 2025届:简介 - 自学笔记

💡 原文英文,约600词,阅读约需3分钟。
📝

内容提要

该课程包含6个模块和2个研讨会,重点讲解数据工程的核心主题,使用Slack和GitHub进行互动。内容涵盖环境设置、工作流编排、数据仓库、数据转换、批处理和实时数据处理。学员需完成综合数据工程项目以获得证书。

🎯

关键要点

  • 课程包含6个模块和2个研讨会,重点讲解数据工程的核心主题。
  • 使用Slack和GitHub进行互动,提供Q&A环节和讨论。
  • 环境设置使用GitHub Codespaces或云虚拟机,简化启动过程。
  • 第一周:环境设置和基础知识,重点工具包括Docker和Terraform。
  • 第二周:工作流编排,使用Kestra工具简化脚本。
  • 第三周:数据仓库,使用Google BigQuery存储和查询大数据集。
  • 第四周:使用DBT进行数据转换和可视化。
  • 第五周:批处理,使用Apache Spark进行数据管道控制。
  • 第六周:流处理和实时数据处理,使用Kafka和RisingWave。
  • 最终项目要求创建综合数据工程项目以获得证书。
  • 参与者需具备Python基础和命令行知识,时间灵活。
  • 成功完成最终项目后颁发证书,作业提交计入内部排名系统。
  • 建议在GitHub上贡献,参与社区互动。
  • 尽管科技裁员,数据工程师的需求依然强劲,掌握GCP、AWS和Azure等平台技能有价值。
  • 课程免费,旨在与社区分享知识,得到赞助商支持。
  • 建议考虑学习Kimball方法论以提升数据架构能力。
➡️

继续阅读