Databricks ·

推出适用于Databricks Runtime 13.0的Apache Spark™ 3.4

💡 原文英文，约2700词，阅读约需10分钟。

📝

内容提要

Apache Spark 3.4发布了许多新功能，包括Spark Connect、PyTorch分布式训练、改进的SQL功能和流媒体改进。此外，还包括Python任意状态处理和Protobuf支持。该版本强调易用性、稳定性和精细化，解决了大约2600个问题。超过270个贡献者为此做出了贡献。用户可以通过注册免费的Databricks Community Edition或Databricks Trial轻松地尝试Apache Spark 3.4。

🎯

关键要点

Apache Spark 3.4发布了新功能，包括Spark Connect、PyTorch分布式训练、改进的SQL功能和流媒体改进。
Spark Connect实现了客户端与服务器的解耦架构，支持从任何应用程序远程连接Spark集群。
新增TorchDistributor模块，支持在Spark集群上进行PyTorch的分布式训练。
SQL功能增强，包括支持列的默认值、无时区时间戳、新的UNPIVOT操作和参数化SQL查询。
引入新的TIMESTAMP_NTZ数据类型，表示不带时区的时间戳。
支持在SQL查询中使用OFFSET子句，便于分页操作。
改进了PySpark的开发者体验，包括更好的错误消息和内存分析工具。
流媒体处理方面的改进，包括异步偏移管理和支持多个状态操作。
Apache Spark 3.4解决了约2600个问题，强调易用性、稳定性和精细化。
用户可以通过注册免费的Databricks Community Edition或Databricks Trial来尝试Apache Spark 3.4。

🏷️

推出适用于Databricks Runtime 13.0的Apache Spark™ 3.4

内容提要

关键要点

标签

继续阅读