InfoQ ·

Databricks将Spark声明式管道贡献给Apache Spark

💡 原文英文，约600词，阅读约需2分钟。

📝

内容提要

在旧金山的Databricks Data+AI峰会上，Databricks宣布将Delta Live Tables技术贡献给Apache Spark，命名为Spark Declarative Pipelines。这一新特性将简化流式管道的开发与维护，支持使用SQL或Python SDK定义数据流，预计将在2026年1月的Spark 4.10版本中发布。

🎯

关键要点

Databricks在旧金山的Data+AI峰会上宣布将Delta Live Tables技术贡献给Apache Spark，命名为Spark Declarative Pipelines。
新特性将简化流式管道的开发与维护，支持使用SQL或Python SDK定义数据流。
用户无需创建传统的命令即可定义数据流管道，但仍需理解Spark的运行时行为。
新特性将减少对Apache Airflow等调度器的需求。
Declarative Pipelines支持来自Apache Kafka等流数据源的流式表和自动更新的物化视图。
示例展示了如何使用CREATE STREAMING TABLE命令定义流，并在后续查询中使用FROM语句消费这些流。
Apache Spark的这些变化尚未发布，但已有工程师分享了使用Databricks DLT的经验。
Spark Declarative Pipelines还支持变更数据捕获（CDC）、批处理和流逻辑、内置重试逻辑和可观察性钩子。
Declarative Pipelines正在合并到Spark项目中，计划在2026年1月的Spark 4.10版本中发布。

❓

延伸问答

Databricks在Data+AI峰会上宣布了什么重要消息？

Databricks宣布将Delta Live Tables技术贡献给Apache Spark，命名为Spark Declarative Pipelines。

Spark Declarative Pipelines的主要功能是什么？

Spark Declarative Pipelines简化了流式管道的开发与维护，支持使用SQL或Python SDK定义数据流。

使用Spark Declarative Pipelines时，用户需要注意什么？

用户仍需理解Spark的运行时行为，以便排查性能和正确性问题。

Spark Declarative Pipelines如何减少对调度器的需求？

该特性允许用户定义数据流管道，而无需创建传统的命令，从而减少对Apache Airflow等调度器的需求。

Spark Declarative Pipelines支持哪些数据源？

它支持来自Apache Kafka等流数据源的流式表和自动更新的物化视图。

Spark Declarative Pipelines的发布计划是什么？

该特性计划在2026年1月的Spark 4.10版本中发布。

🏷️

继续阅读

查询标签：您的数据仓库查询所缺失的上下文
Databricks推出了查询标签功能，允许用户为每个SQL执行添加自定义业务上下文，以便追踪和分析查询。通过自动标记，用户可以识别查询来源、成本中心和项...
微软发布Surface RTX SPARK开发工作站利用英伟达芯片提供本地AI算力
微软推出了 Microsoft Surface RTX SPARK 开发工作站，搭载英伟达芯片，支持本地运行 AI 模型。该工作站配备 20 核心 CPU...
AI 工程中最该投资的一件事：评估管道
AI 工程和传统软件工程最大的区别在于输出质量不是二元的。一个 CRUD 接口要么能用要么不能用，但 LLM 的输出处于一个质量梯度上，你没法用单元测试来...
微软Build 2026：关于Windows、AI、RTX Spark及更多的所有新闻
微软Build 2026开发者大会于6月2日在旧金山召开，重点介绍新的AI模型和Windows改进。微软推出了Surface Laptop Ultra和S...
Gemini Spark是我迄今为止体验过的最令人印象深刻且令人恐惧的人工智能体验
谷歌的新AI助手Spark能够根据用户需求和家庭信息生成个性化的旅行计划，尽管功能强大，但用户对隐私问题表示担忧。
早期基准测试数据显示英伟达RTX SPARK N1X芯片性能相当于苹果M3 MAX
英伟达RTX SPARK N1X芯片的早期基准测试显示，其性能与苹果M3 MAX相当。N1X拥有20个核心，而M3 MAX则为14个核心。尽管M3 MAX...