在基于 Amazon 云平台的湖仓一体架构上构建数据血缘的探索和实践
原文中文,约11400字,阅读约需27分钟。发表于: 。本文会为您介绍在湖仓一体架构下,如何将亚马逊云科技的数据湖 Amazon S3 在数据 ETL 处理过程中通过 Spline 捕获并产生在图数据库 ArangoDB 中的数据血缘和数据仓库 Amazon Redshift 通过 DBT 产生的数据血缘进行合并,并使用图数据库 Amazon Neptune 通过 DAG 图进行可视化展示。
本文介绍了如何将Spline和DBT的数据血缘合并到Amazon Neptune,实现数据血缘的捕获、合并和可视化展示。通过解析中间文件,将两端的数据血缘插入Amazon Neptune进行拼接,并通过Amazon Neptune Notebook进行可视化查询。