内容提要
Apache SparkTM 3.4发布了Spark Connect,允许用户直接连接IDE、笔记本和现代数据应用程序到Spark集群。Spark Connect引入了解耦的客户端-服务器架构,使任何应用程序都能远程连接到Spark集群。它提高了稳定性、升级、调试和可观察性。Spark Connect客户端库旨在简化Spark应用程序开发。它是一个可以嵌入到任何地方的轻量级API。Databricks Connect现在基于开源Spark Connect构建。Spark Connect支持大多数PySpark和Scala API。流支持即将推出。Spark Connect使访问Spark变得无处不在。
关键要点
-
Apache Spark 3.4发布了Spark Connect,允许用户直接连接IDE、笔记本和现代数据应用程序到Spark集群。
-
Spark Connect引入了解耦的客户端-服务器架构,使任何应用程序都能远程连接到Spark集群。
-
Spark Connect提高了稳定性、升级、调试和可观察性。
-
使用Spark Connect,应用程序可以在自己的进程中运行,避免与Spark集群中的其他应用程序竞争资源。
-
Spark Connect支持独立升级,用户无需在升级Spark时更改客户端应用程序。
-
Spark Connect支持交互式调试,用户可以直接从IDE中进行代码调试。
-
Spark Connect客户端库旨在简化Spark应用程序开发,是一个轻量级API。
-
Spark Connect通过gRPC框架与Spark进行通信,支持大多数PySpark和Scala API。
-
Databricks Connect现在基于开源Spark Connect构建,简化了与Databricks的连接。
-
Spark Connect为未来支持其他编程语言奠定了基础,简化了客户端应用程序开发。