💡
原文中文,约3000字,阅读约需7分钟。
📝
内容提要
本文讲解如何在本地环境中使用 Apache Flink 将数据写入 Amazon S3。首先,下载 flink-s3-fs-hadoop 插件并放入 Flink 的 lib 目录。为访问国内 S3,在 conf 目录创建 core-site.xml 文件并设置 endpoint。然后,通过示例代码生成数据,配置 Java 包和应用属性。最后,运行程序验证数据是否成功写入 S3。
🎯
关键要点
- 本文讲解如何在本地环境中使用 Apache Flink 将数据写入 Amazon S3。
- 需要下载 flink-s3-fs-hadoop 插件并放入 Flink 的 lib 目录。
- 为访问国内 S3,需要在 conf 目录创建 core-site.xml 文件并设置 endpoint。
- 可以通过示例代码生成数据,配置 Java 包和应用属性。
- 运行程序验证数据是否成功写入 S3。
- 在本地开发环境中,S3 插件需要特别设置以访问国内区域的 S3 Bucket。
- 生成源数据时,可以使用 stock.py 程序模拟股票价格。
- 需要下载 flink-sql-connector-kinesis-1.15.2.jar 并放入 FileSink 的 lib 目录。
- 修改应用属性以配置数据流名称、AWS 区域和 S3 Bucket 名称。
- 建议更改输出文件路径以便于后续测试。
- 运行程序后,检查 S3 控制台以验证 JSON 文件是否生成。
- 部署上云时无需考虑 S3 的 endpoint 地址问题。
- 本文提供了 Flink 写入 S3 的设置说明,特别是在本地开发时的配置。
❓
延伸问答
如何在本地环境中使用 Apache Flink 写入 Amazon S3?
需要下载 flink-s3-fs-hadoop 插件并放入 Flink 的 lib 目录,同时在 conf 目录创建 core-site.xml 文件设置 endpoint。
在本地开发环境中访问国内 S3 需要哪些特别设置?
需要在 conf 目录下创建 core-site.xml 文件,并设置相应的 endpoint 地址以访问国内 S3。
如何生成测试数据以写入 S3?
可以使用 stock.py 程序模拟股票价格作为测试数据,配合 Amazon Kinesis Data Streams 使用。
在运行程序之前需要配置哪些 Java 包?
需要下载 flink-sql-connector-kinesis-1.15.2.jar 并放入 FileSink 的 lib 目录。
如何验证数据是否成功写入 S3?
运行程序后,检查 S3 控制台中的 Bucket,查看是否生成了 JSON 文件。
部署到云端时需要注意哪些事项?
部署上云时无需考虑 S3 的 endpoint 地址问题,因为托管的 Flink 已经做好相应配置。
➡️