推出适用于Databricks Runtime 13.0的Apache Spark™ 3.4

推出适用于Databricks Runtime 13.0的Apache Spark™ 3.4

💡 原文英文,约2700词,阅读约需10分钟。
📝

内容提要

Apache Spark 3.4发布了许多新功能,包括Spark Connect、PyTorch分布式训练、改进的SQL功能和流媒体改进。此外,还包括Python任意状态处理和Protobuf支持。该版本强调易用性、稳定性和精细化,解决了大约2600个问题。超过270个贡献者为此做出了贡献。用户可以通过注册免费的Databricks Community Edition或Databricks Trial轻松地尝试Apache Spark 3.4。

🎯

关键要点

  • Apache Spark 3.4发布了新功能,包括Spark Connect、PyTorch分布式训练、改进的SQL功能和流媒体改进。
  • Spark Connect实现了客户端与服务器的解耦架构,支持从任何应用程序远程连接Spark集群。
  • 新增TorchDistributor模块,支持在Spark集群上进行PyTorch的分布式训练。
  • SQL功能增强,包括支持列的默认值、无时区时间戳、新的UNPIVOT操作和参数化SQL查询。
  • 引入新的TIMESTAMP_NTZ数据类型,表示不带时区的时间戳。
  • 支持在SQL查询中使用OFFSET子句,便于分页操作。
  • 改进了PySpark的开发者体验,包括更好的错误消息和内存分析工具。
  • 流媒体处理方面的改进,包括异步偏移管理和支持多个状态操作。
  • Apache Spark 3.4解决了约2600个问题,强调易用性、稳定性和精细化。
  • 用户可以通过注册免费的Databricks Community Edition或Databricks Trial来尝试Apache Spark 3.4。
➡️

继续阅读