freeCodeCamp.org ·

如何使用Apache Spark读取和写入深层分区文件

💡 原文英文，约700词，阅读约需3分钟。

📝

内容提要

本文介绍了如何使用Apache Spark高效导出深层嵌套数据文件，保留分区文件夹。通过input_file_name()、regexp_extract()和partitionBy() API，可以提取并分区保存年份、月份、日期和小时等辅助列。

🎯

使用Apache Spark导出深层嵌套数据文件时，需要保留分区文件夹。
在导出过程中，使用input_file_name()、regexp_extract()和partitionBy() API来提取并分区保存年份、月份、日期和小时等辅助列。
需要具备Hadoop和Spark的分布式计算基础知识，以及Scala/Java等面向对象编程语言的编程能力。
在读取和写入时，recursiveFileLookup和pathGlobFilter选项并不适用，需寻找其他解决方案。
通过组合使用input_file_name()和regexp_extract()，可以有效提取文件路径中的时间信息。
示例代码展示了如何初始化Spark会话、读取源数据、提取时间信息并按分区写入目标路径。
文章总结了如何高效地使用Apache Spark导出深层嵌套数据文件。

❓

使用input_file_name()、regexp_extract()和partitionBy() API，可以提取年份、月份、日期和小时等辅助列，并按分区写入目标路径。

在导出时需要保留分区文件夹，并使用partitionBy() API来指定分区列。

需要具备Hadoop和Spark的分布式计算基础知识，以及Scala或Java等面向对象编程语言的编程能力。

这两个选项在读取和写入时并不适用，因此需要寻找其他解决方案。

可以通过组合使用input_file_name()和regexp_extract()来有效提取文件路径中的时间信息。

通过SparkSession.builder创建Spark会话，并调用getOrCreate()方法进行初始化。

🏷️

ASF项目聚焦：Apache Iceberg
Dipankar Mazumdar是Cloudera开发者关系总监，专注于湖屋架构和人工智能。他介绍了Apache Iceberg，这是一种高性能的开放表...
您现在可以轻松地在Gemini中生成文件。
Gemini应用程序更新后，用户可以在聊天中直接创建PDF、Word、Excel等文件，简化了从构思到成品的过程。该功能现已全球用户可用，支持多种格式，用...
欢迎来到2026年Perl工具链峰会！
This post is adapted from my notes and recollection of the welcome speech I g...
企业在AI应用中获胜的关键是首先构建数据层
Every enterprise wants to be AI-driven. Fewer are willing to do the unglamoro...
将AI令牌使用量减少96%？AWS Strands Agents是如何做到的
For this episode of The New Stack Makers, I sat down with AWS developer advoc...
Dave Stokes: PostgreSQL, Timezones, and DBeaver
Time zones are an unfortunately complex subject when dealing with PostgreSQL....