内容提要
Apache Spark 3.4 和 3.5 于 2023 年发布,为 PySpark 的性能、灵活性和易用性带来了显著提升。主要增强功能包括 Spark Connect、Arrow 优化的 Python UDFs、Python UDTFs、新的 SQL 功能、Python 任意状态处理、TorchDistributor 和测试 API。此外,还有英语 SDK 和其他改进。这些功能在 Databricks Runtime 13 和 14 中可用。
关键要点
-
Apache Spark 3.4 和 3.5 于 2023 年发布,显著提升了 PySpark 的性能、灵活性和易用性。
-
Spark Connect 引入了客户端-服务器架构,支持远程连接 Spark 集群。
-
Arrow 优化的 Python UDFs 提高了性能,执行速度比传统的 Python UDFs 快约 1.9 倍。
-
Python UDTFs 允许用户定义表函数,返回表格而非单一标量结果。
-
新 SQL 功能包括 GROUP BY ALL、ORDER BY ALL、INSERT BY NAME、PIVOT 和 MELT 等。
-
Python 任意状态处理支持在流处理查询中进行状态处理,解锁了实时分析和机器学习用例。
-
TorchDistributor 提供了对 PyTorch 的原生支持,简化了深度学习模型的分布式训练。
-
新的测试 API 改善了 PySpark 应用程序的测试体验,提供了实用的相等性测试功能。
-
英语 SDK 允许用户用英语输入命令,简化了 PySpark 和 Spark SQL 的使用。
-
2023 年的创新丰富了 PySpark 和 Apache Spark 的工具包,提升了数据分析工作流的效率。