The New Stack ·

从Spark SQL到Databricks的声明式管道

💡 原文英文，约1400词，阅读约需5分钟。

📝

内容提要

2013年，迈克尔·阿姆布鲁斯在Databricks开始开发Spark SQL。2023年，他宣布将两个平台技术开源至Apache Spark，显示Databricks对Spark的持续关注。Spark自2009年由Matei Zaharia创建，成为分布式机器学习平台。Databricks还开源了Declarative Pipeline和实时模式技术，以提升数据流处理能力，致力于保持开源基础并发展专有平台，增强市场竞争力。

🎯

关键要点

2013年，迈克尔·阿姆布鲁斯在Databricks开始开发Spark SQL。
2023年，阿姆布鲁斯宣布将两个平台技术开源至Apache Spark，显示Databricks对Spark的持续关注。
Spark由Matei Zaharia于2009年创建，成为分布式机器学习平台。
Databricks开源了Declarative Pipeline和实时模式技术，以提升数据流处理能力。
Declarative Pipelines使数据转换更专注于有趣的部分，减少了繁重的工作。
Delta技术支持数据的增量处理，帮助实现从原始数据到清洗数据的转变。
Unity Catalog提供治理功能，通过丰富的元数据实现细粒度过滤。
实时模式扩展了低延迟工作流，改变了流数据的处理方式。
Databricks在快速增长的市场中面临竞争，包括Snowflake、Google Cloud Data Flow等。
Databricks坚持开源根基，同时构建专有平台，加速增长。
开源技术的贡献增强了Databricks在社区中的地位，但也面临对专有平台的认知问题。

🔎

延伸解读

开源技术的市场影响

Databricks将其技术开源至Apache Spark，表明其对开源社区的承诺。这种做法不仅增强了其在技术社区的地位，还可能吸引更多开发者参与，从而推动技术的进一步创新和应用。开源的透明性和合作性也可能帮助Databricks在竞争激烈的市场中脱颖而出。

Declarative Pipelines的优势

Declarative Pipelines的推出使数据转换过程更加高效，工程师可以专注于数据的有趣部分，而非繁琐的细节。这种方法不仅提高了工作效率，还降低了出错的可能性，适合需要快速响应和高效处理数据的企业。

实时模式的变革

Databricks的实时模式技术改变了流数据的处理方式，减少了延迟并提高了数据处理的灵活性。这对于需要即时数据分析的应用场景尤为重要，企业可以更快地做出决策，提升竞争力。

开源与专有平台的平衡

尽管Databricks坚持开源根基，但也面临专有平台与开源技术之间的认知问题。用户可能会担心专有平台的优先级是否高于开源版本，这可能影响其对Databricks产品的信任和使用。因此，如何在两者之间找到平衡是Databricks未来发展的关键。

❓

延伸问答

Databricks在开源技术方面有哪些重要贡献？

Databricks开源了Declarative Pipeline和实时模式技术，提升了数据流处理能力，并增强了其在社区中的地位。

什么是Declarative Pipelines，它有什么优势？

Declarative Pipelines是一种数据转换工具，专注于简化数据处理，减少繁重的工作，使工程师能够专注于有趣的部分。

Databricks如何应对市场竞争？

Databricks通过坚持开源根基，同时构建专有平台，加速增长，以应对Snowflake、Google Cloud Data Flow等竞争对手。

实时模式技术的主要特点是什么？

实时模式技术扩展了低延迟工作流，允许持续轮询新数据，从而立即处理流数据，改变了传统的微批处理方式。

Delta技术在数据处理中的作用是什么？

Delta技术支持数据的增量处理，帮助实现从原始数据到清洗数据的转变，提升了数据处理的性能。

Unity Catalog在Databricks中有什么功能？

Unity Catalog提供治理功能，通过丰富的元数据实现细粒度过滤，帮助用户更好地管理数据。

🏷️