基于 Apache Kafka 和 AWS 构建端到端的无服务器流式 ETL 管道

亚马逊AWS官方博客 ·

基于 Apache Kafka 和 AWS 构建端到端的无服务器流式 ETL 管道

💡 原文中文，约9800字，阅读约需24分钟。

📝

内容提要

Apache Kafka 是高性能消息代理，Amazon Redshift 是强大数据仓库。通过 Amazon EMR Serverless 和 PySpark，可以轻松实现 Kafka 到 Redshift 的数据传输，构建无服务器 ETL 管道。该过程包括创建 S3 存储、Redshift 工作组和 EMR 应用程序，并使用 Jupyter Notebook 编写 PySpark 代码进行数据处理和存储。

🎯

关键要点

Apache Kafka 是高性能消息代理，Amazon Redshift 是强大数据仓库。
可以通过 Amazon EMR Serverless 和 PySpark 实现 Kafka 到 Redshift 的数据传输。
该过程包括创建 S3 存储、Redshift 工作组和 EMR 应用程序。
使用 Jupyter Notebook 编写 PySpark 代码进行数据处理和存储。
Amazon EMR Serverless 使数据工程师和分析师能够轻松运行大数据应用程序。
创建 S3 bucket 用于存储 EMR 操作和 CSV 数据的临时存储。
创建 Redshift Serverless 工作组并设置 VPC 以确保网络连接。
在 AWS Console 中创建 EMR Serverless 应用程序并启动 Jupyter Notebook。
编写 PySpark 代码以从 Kafka 读取数据并写入 Redshift。
使用 StructType 创建数据模式以展开字段并将数据存储到 Redshift。
故障排除提示包括检查 S3 bucket 中的临时 CSV 文件和 Redshift 错误信息。
该解决方案已被 AWS 客户采用，存储超过 7000 亿条记录，日均摄入超过 150 亿条新记录。

❓

延伸问答

如何通过 Apache Kafka 将数据传输到 Amazon Redshift？

可以通过 Amazon EMR Serverless 和 PySpark 实现 Kafka 到 Redshift 的数据传输，具体步骤包括创建 S3 存储、Redshift 工作组和 EMR 应用程序。

Amazon EMR Serverless 的主要功能是什么？

Amazon EMR Serverless 使数据工程师和分析师能够轻松且经济高效地运行使用开源大数据框架构建的应用程序，无需管理集群。

在构建无服务器 ETL 管道时需要哪些 AWS 组件？

需要创建 S3 bucket、Redshift Serverless 工作组和 EMR Serverless 应用程序。

如何在 Jupyter Notebook 中编写 PySpark 代码？

在 Jupyter Notebook 中，首先引用上传的 spark-sql-kafka jar 文件，然后配置基本参数并启动 Spark Session，接着加载 Kafka 数据到 Spark DataFrame 中。

如何处理从 Kafka 读取的数据以存储到 Redshift？

需要使用 StructType 创建数据模式来展开字段，并将数据存储到 Redshift 表中，确保数据格式正确。

在 ETL 管道中遇到错误时如何进行故障排除？

可以检查 S3 bucket 中的临时 CSV 文件和 Redshift 的错误信息，以确定数据未写入的原因。

🏷️

继续阅读

通过AWS无服务器解决方案和智能自动化现代化KYC流程以服务金融行业
现代化的KYC（了解你的客户）流程对金融机构至关重要，以防止洗钱和欺诈。传统系统面临延迟和合规性挑战，亟需更新。通过AWS无服务器解决方案和智能自动化，金...
AWS 收购对话式 AI 公司 NLX，Amazon Connect 部署周期从数月压缩至数周
亚马逊云科技（AWS）宣布将对话式AI平台NLX整合进Amazon Connect，实现无代码可视化设计，显著缩短AI客户体验的部署周期。这一整合提升了A...
公共CA的clientAuth EKU退役：Apache软件部署者需要知道的事项
从2026年5月起，主要公共证书颁发机构将停止在TLS证书中包含客户端身份验证扩展密钥用法（EKU），这将影响依赖相互TLS（mTLS）的Apache项目...
我如何为基于单一代码库的微服务系统构建生产就绪的CI/CD管道，使用Jenkins、Docker Compose和Traefik
本文教程介绍了如何在单个Linux服务器上使用Jenkins、Docker Compose和Traefik构建生产就绪的CI/CD管道，包括HTTPS自动...
Grafana Rearchitects Loki with Kafka and Ships a CLI to Bring Observability Into Coding Agent
At GrafanaCON 2026 in Barcelona, Grafana Labs announced Grafana 13 with the n...
Living Clojure
还不错的 Clojure 入门书籍，适合有较强编程基础（我认为至少要熟悉一两门编程语言，有实际开发经验）的人用来快速了解 Clojure 各方面的特性和编...