💡
原文英文,约1000词,阅读约需4分钟。
📝
内容提要
Apache Spark 3.4 和 3.5 于 2023 年发布,为 PySpark 的性能、灵活性和易用性带来了显著提升。主要增强功能包括 Spark Connect、Arrow 优化的 Python UDFs、Python UDTFs、新的 SQL 功能、Python 任意状态处理、TorchDistributor 和测试 API。此外,还有英语 SDK 和其他改进。这些功能在 Databricks Runtime 13 和 14 中可用。
🎯
关键要点
- Apache Spark 3.4 和 3.5 于 2023 年发布,显著提升了 PySpark 的性能、灵活性和易用性。
- Spark Connect 引入了客户端-服务器架构,支持远程连接 Spark 集群。
- Arrow 优化的 Python UDFs 提高了性能,执行速度比传统的 Python UDFs 快约 1.9 倍。
- Python UDTFs 允许用户定义表函数,返回表格而非单一标量结果。
- 新 SQL 功能包括 GROUP BY ALL、ORDER BY ALL、INSERT BY NAME、PIVOT 和 MELT 等。
- Python 任意状态处理支持在流处理查询中进行状态处理,解锁了实时分析和机器学习用例。
- TorchDistributor 提供了对 PyTorch 的原生支持,简化了深度学习模型的分布式训练。
- 新的测试 API 改善了 PySpark 应用程序的测试体验,提供了实用的相等性测试功能。
- 英语 SDK 允许用户用英语输入命令,简化了 PySpark 和 Spark SQL 的使用。
- 2023 年的创新丰富了 PySpark 和 Apache Spark 的工具包,提升了数据分析工作流的效率。
🏷️
标签
➡️