使用 Iceberg 和 Spark 在 Kubernetes 上处理数据
原文中文,约13600字,阅读约需33分钟。发表于: 。1. 数据处理架构 主要分为四层: 处理能力层,Spark on Kubernetes 提供流式的数据处理能力 数据管理层,Iceberg 提供 ACID、table 等数据集访问操作能力 存储层,Hive MetaStore 管理 Iceberg 表元数据,Postgresql 作为 Hive MetaStore 存储后端,S3 作为数据存储后端 资
本文介绍了基于Spark、Iceberg和Hive Metastore的数据处理软件栈的部署流程,包括架构、概念介绍和部署步骤。涵盖了Hive Metastore、Spark Operator、Standalone模式、spark-submit、yaml方式运行Spark作业和通过Argo Webhook提供API。