陈少文的博客 ·

使用 Iceberg 和 Spark 在 Kubernetes 上处理数据

💡 原文中文，约13600字，阅读约需33分钟。

📝

内容提要

本文介绍了基于Spark、Iceberg和Hive Metastore的数据处理软件栈的部署流程，包括架构、概念介绍和部署步骤。涵盖了Hive Metastore、Spark Operator、Standalone模式、spark-submit、yaml方式运行Spark作业和通过Argo Webhook提供API。

🎯

关键要点

数据处理架构分为四层：处理能力层、数据管理层、存储层和资源层。
Spark on Kubernetes 提供流式数据处理能力，支持批处理、流处理、SQL查询、机器学习和图计算。
Iceberg 是一种开放表格式，定义数据和元数据的组织方式，支持与 Hive Metastore 集成。
Hive Metastore 作为元数据管理服务，支持 Hive、Spark、Presto 等大数据处理工具。
部署 Hive Metastore 需要配置 PostgreSQL 数据库，并初始化相关环境变量。
Spark Operator 通过 Kubernetes 管理 Spark 作业，支持提交和管理 Spark 应用。
Standalone 模式下的 Spark 可以在本地启动完整依赖，支持交互操作和 Iceberg 表的创建。
使用 spark-submit 提交 Spark 作业时，需要设置权限和配置相关参数。
在集群中处理数据时，脚本可以通过 PVC 挂载到 Driver 和 Executor 中。
通过 Argo Webhook 提供 Spark 处理 API，支持任务的触发和管理。
总结了部署基于 Spark、Iceberg 和 Hive Metastore 的数据处理软件栈的流程和主要内容。

🏷️

继续阅读

市场激活差距有解：Databricks与Stitch合作将数据基础设施转化为营销绩效
Databricks与Stitch合作，旨在缩小企业数据与市场营销之间的差距，帮助品牌更好地利用数据平台，实现实时数据驱动的营销决策。这一合作为企业提供了...
Kubernetes 初学者指南
Kubernetes 是一种基础设施平台，通过承诺管理系统，确保各部分持续履行承诺，维护整体功能。
Meta公司放弃开源Llama，转向专有的Muse Spark
Meta公司宣布其新AI模型Muse Spark将取代已被放弃的Llama。Muse Spark采用全新架构，无法与Llama迁移，Llama用户需寻找替...
Spark.NET：一个试图把 Django / Rails 式开发体验带回 .NET 世界的全栈 Web 框架。 - 曦远Code
Spark.NET 是一个全栈 Web 框架，旨在为开发者提供快速的单体式应用开发体验。它整合了 ASP.NET Core 和 EF Core，强调“约定...
Zed 1.0协议风波：你的代码被用来做训练数据
Zed 1.0协议引发了开发者对数据使用权和隐私的担忧。模糊的条款导致用户误解，认为自己的代码可能被滥用。AI补全功能需要访问用户代码，可能导致数据外流。...
微软的Xbox模式现已在所有Windows 11 PC上可用
Microsoft is now rolling out its Xbox mode to all Windows 11 PCs. The new Xbo...

使用 Iceberg 和 Spark 在 Kubernetes 上处理数据

内容提要

关键要点

标签

继续阅读