freeCodeCamp.org ·

如何使用Apache Spark读取和写入深层分区文件

💡 原文英文，约700词，阅读约需3分钟。

📝

内容提要

本文介绍了如何使用Apache Spark高效导出深层嵌套数据文件，保留分区文件夹。通过input_file_name()、regexp_extract()和partitionBy() API，可以提取并分区保存年份、月份、日期和小时等辅助列。

🎯

使用Apache Spark导出深层嵌套数据文件时，需要保留分区文件夹。
在导出过程中，使用input_file_name()、regexp_extract()和partitionBy() API来提取并分区保存年份、月份、日期和小时等辅助列。
需要具备Hadoop和Spark的分布式计算基础知识，以及Scala/Java等面向对象编程语言的编程能力。
在读取和写入时，recursiveFileLookup和pathGlobFilter选项并不适用，需寻找其他解决方案。
通过组合使用input_file_name()和regexp_extract()，可以有效提取文件路径中的时间信息。
示例代码展示了如何初始化Spark会话、读取源数据、提取时间信息并按分区写入目标路径。
文章总结了如何高效地使用Apache Spark导出深层嵌套数据文件。

🏷️

TreeSize – 专业的磁盘空间分析工具，可查找大文件、重复文件[Win]
TreeSize是一款专业的磁盘空间分析工具，提供可视化图表，帮助用户快速分析磁盘使用情况。分为免费版和付费版，付费版功能更强大，适合不同用户需求。
人工智能的年份：监管行业即将迎来的三大关键转变
到2025年，高度监管行业的企业将评估AI能力，识别可行用例，推动大规模AI实施，主要包括加速遗留系统现代化、预测安全操作和扩展开发能力。这将提升组织效率...
2.4万亿参数“最强文科生”，文心5.0正式版，你挺懂山东人啊？
文心5.0正式发布，参数达到2.4万亿，具备全模态能力，表现优异。其在文本和视觉理解方面多次夺冠，展现出强大的知识整合与创造力。通过原生全模态建模，提升了...
2026年1月MySQL性能评估
本文分析了Community MySQL、Percona Server和MariaDB的最新性能基准测试。结果显示，Percona Server与MySQ...
Exposed 1.0 现已发布
Exposed 1.0发布，支持R2DBC和Spring Boot 3/4，提升性能和API稳定性。感谢社区贡献，期待未来发展。
Vercel、Heroku 和 Netlify 的五大自托管平台替代方案
本文介绍了几种自托管平台，如Dokploy、Coolify、Appwrite、Dokku和Juno，旨在帮助开发者简化应用部署和管理，避免复杂的DevOp...