💡
原文英文,约2700词,阅读约需10分钟。
📝
内容提要
Apache Spark 3.4发布了许多新功能,包括Spark Connect、PyTorch分布式训练、改进的SQL功能和流媒体改进。此外,还包括Python任意状态处理和Protobuf支持。该版本强调易用性、稳定性和精细化,解决了大约2600个问题。超过270个贡献者为此做出了贡献。用户可以通过注册免费的Databricks Community Edition或Databricks Trial轻松地尝试Apache Spark 3.4。
🎯
关键要点
- Apache Spark 3.4发布了新功能,包括Spark Connect、PyTorch分布式训练、改进的SQL功能和流媒体改进。
- Spark Connect实现了客户端与服务器的解耦架构,支持从任何应用程序远程连接Spark集群。
- 新增TorchDistributor模块,支持在Spark集群上进行PyTorch的分布式训练。
- SQL功能增强,包括支持列的默认值、无时区时间戳、新的UNPIVOT操作和参数化SQL查询。
- 引入新的TIMESTAMP_NTZ数据类型,表示不带时区的时间戳。
- 支持在SQL查询中使用OFFSET子句,便于分页操作。
- 改进了PySpark的开发者体验,包括更好的错误消息和内存分析工具。
- 流媒体处理方面的改进,包括异步偏移管理和支持多个状态操作。
- Apache Spark 3.4解决了约2600个问题,强调易用性、稳定性和精细化。
- 用户可以通过注册免费的Databricks Community Edition或Databricks Trial来尝试Apache Spark 3.4。
➡️