💡
原文英文,约200词,阅读约需1分钟。
📝
内容提要
本文介绍了如何将Spark生成的Parquet文件上传至S3,步骤包括将数据写入本地磁盘、定位Parquet文件、构建S3路径,并使用boto3进行文件上传。
🎯
关键要点
- 使用boto3将Spark生成的Parquet文件上传至S3。
- 步骤包括将数据写入本地磁盘。
- 定位生成的Parquet文件,文件名为随机生成。
- 构建S3路径以便上传文件。
- 确保S3路径以'/'结尾。
- 使用glob模块查找实际的Parquet文件。
- 提取文件名以构建完整的S3路径。
- 从完整路径中提取S3桶和键。
- 使用boto3的upload_file方法上传文件。
- 上传成功后打印确认信息。
❓
延伸问答
如何将Spark生成的Parquet文件上传至S3?
使用boto3库,首先将数据写入本地磁盘,然后定位Parquet文件,构建S3路径,最后使用upload_file方法上传文件。
在上传文件之前需要做哪些准备工作?
需要将数据写入本地磁盘,并确保S3路径以'/'结尾,以便正确构建完整的S3路径。
如何定位生成的Parquet文件?
可以使用glob模块查找实际的Parquet文件,文件名通常是随机生成的,格式为part-*.parquet。
如何构建完整的S3路径?
从本地文件路径提取文件名,并将其与S3路径结合,形成完整的S3路径。
上传文件成功后会有什么反馈?
上传成功后,程序会打印确认信息,显示已上传的文件及其S3路径。
如果没有找到Parquet文件会发生什么?
如果没有找到Parquet文件,程序会打印错误信息,提示没有在目录中找到文件。
➡️