Apache Spark 3.4 中的 Spark Connect 正式发布

Apache Spark 3.4 中的 Spark Connect 正式发布

💡 原文英文,约1400词,阅读约需5分钟。
📝

内容提要

Apache SparkTM 3.4发布了Spark Connect,允许用户直接连接IDE、笔记本和现代数据应用程序到Spark集群。Spark Connect引入了解耦的客户端-服务器架构,使任何应用程序都能远程连接到Spark集群。它提高了稳定性、升级、调试和可观察性。Spark Connect客户端库旨在简化Spark应用程序开发。它是一个可以嵌入到任何地方的轻量级API。Databricks Connect现在基于开源Spark Connect构建。Spark Connect支持大多数PySpark和Scala API。流支持即将推出。Spark Connect使访问Spark变得无处不在。

🎯

关键要点

  • Apache Spark 3.4发布了Spark Connect,允许用户直接连接IDE、笔记本和现代数据应用程序到Spark集群。

  • Spark Connect引入了解耦的客户端-服务器架构,使任何应用程序都能远程连接到Spark集群。

  • Spark Connect提高了稳定性、升级、调试和可观察性。

  • 使用Spark Connect,应用程序可以在自己的进程中运行,避免与Spark集群中的其他应用程序竞争资源。

  • Spark Connect支持独立升级,用户无需在升级Spark时更改客户端应用程序。

  • Spark Connect支持交互式调试,用户可以直接从IDE中进行代码调试。

  • Spark Connect客户端库旨在简化Spark应用程序开发,是一个轻量级API。

  • Spark Connect通过gRPC框架与Spark进行通信,支持大多数PySpark和Scala API。

  • Databricks Connect现在基于开源Spark Connect构建,简化了与Databricks的连接。

  • Spark Connect为未来支持其他编程语言奠定了基础,简化了客户端应用程序开发。

➡️

继续阅读