将文件上传至S3

将文件上传至S3

💡 原文英文,约200词,阅读约需1分钟。
📝

内容提要

本文介绍了如何将Spark生成的Parquet文件上传至S3,步骤包括将数据写入本地磁盘、定位Parquet文件、构建S3路径,并使用boto3进行文件上传。

🎯

关键要点

  • 使用boto3将Spark生成的Parquet文件上传至S3。
  • 步骤包括将数据写入本地磁盘。
  • 定位生成的Parquet文件,文件名为随机生成。
  • 构建S3路径以便上传文件。
  • 确保S3路径以'/'结尾。
  • 使用glob模块查找实际的Parquet文件。
  • 提取文件名以构建完整的S3路径。
  • 从完整路径中提取S3桶和键。
  • 使用boto3的upload_file方法上传文件。
  • 上传成功后打印确认信息。

延伸问答

如何将Spark生成的Parquet文件上传至S3?

使用boto3库,首先将数据写入本地磁盘,然后定位Parquet文件,构建S3路径,最后使用upload_file方法上传文件。

在上传文件之前需要做哪些准备工作?

需要将数据写入本地磁盘,并确保S3路径以'/'结尾,以便正确构建完整的S3路径。

如何定位生成的Parquet文件?

可以使用glob模块查找实际的Parquet文件,文件名通常是随机生成的,格式为part-*.parquet。

如何构建完整的S3路径?

从本地文件路径提取文件名,并将其与S3路径结合,形成完整的S3路径。

上传文件成功后会有什么反馈?

上传成功后,程序会打印确认信息,显示已上传的文件及其S3路径。

如果没有找到Parquet文件会发生什么?

如果没有找到Parquet文件,程序会打印错误信息,提示没有在目录中找到文件。

🏷️

标签

➡️

继续阅读