亚马逊AWS官方博客 ·

基于 Datahub +Redshift 自动生成字段级血缘

💡 原文中文，约17800字，阅读约需43分钟。

📝

内容提要

随着企业数据的增长，Amazon Redshift成为数据分析的重要工具。数据血缘关系的追踪对企业至关重要，有助于影响分析、问题排查和合规审计。本文介绍了一种基于DataHub和SQLLineage的改进方案，通过Lambda函数实现轻量级的元数据和血缘关系管理，支持多种计算引擎，具备良好的扩展性和低运维成本。

🎯

关键要点

随着企业数据规模的快速增长，Amazon Redshift成为数据分析的重要工具。
数据血缘关系的追踪对企业至关重要，有助于影响分析、问题排查和合规审计。
本文介绍了一种基于DataHub和SQLLineage的改进方案，通过Lambda函数实现轻量级的元数据和血缘关系管理。
该方案支持多种计算引擎，具备良好的扩展性和低运维成本。
DataHub作为开源元数据平台，为Redshift提供了轻量级的血缘管理方案，但存在解析不稳定等问题。
方案中引入SQLLineage工具，通过Lambda实现无服务器模式的SQL解析和字段级血缘关系生成。
自动获取Redshift的数仓SQL是关键挑战之一，使用SYS_QUERY_HISTORY系统表增量读取INSERT SQL。
生成字段级血缘关系需要获取表的Schema信息，以确保解析的准确性。
DataHub提供Python API用于构造元数据并发送到DataHub。
方案具备良好的扩展性，能够支持Hive/Spark/Flink等其他计算引擎。
部署方案包括使用Docker Compose搭建DataHub Demo和创建Lambda Layer。
创建血缘解析Lambda函数用于解析SQL并生成血缘关系，设置S3触发器以响应SQL文件上传事件。
创建SQL获取Lambda函数用于读取Redshift元数据信息和获取INSERT语句。
完成部署后，通过Demo演示效果，展示生成的列级别血缘关系。
该方案为数据团队提供了实用的数据血缘追踪工具，适合中小型数据团队使用。

🔎

延伸解读

数据血缘的重要性

数据血缘关系的追踪在企业数据管理中至关重要。它不仅帮助企业识别数据流动和转化路径，还能在数据质量出现问题时迅速定位源头。此外，完整的数据流转路径对于合规审计和优化数据处理流程也具有重要意义。

方案的扩展性与适用性

该方案通过引入无服务器架构和 S3 中间层，展现了良好的扩展性，能够支持多种计算引擎如 Hive、Spark 和 Flink。这使得中小型数据团队能够灵活应对不同的数据处理需求，降低运维成本。

实施中的挑战

在实施过程中，自动获取 Redshift 的 SQL 语句和精确生成字段级血缘是关键挑战。尤其是需要确保获取到的表 Schema 信息准确，以避免解析错误。因此，团队在部署时需特别关注这些环节的实现。

❓

延伸问答

什么是数据血缘关系，它的重要性是什么？

数据血缘关系描述了数据在系统中的流动和转化路径，能够帮助企业进行影响分析、问题排查和合规审计。

如何通过DataHub和SQLLineage实现字段级血缘关系的生成？

通过引入SQLLineage工具和使用Lambda函数，可以自动解析SQL并生成字段级血缘关系，最终在DataHub上展示。

该方案的主要优势是什么？

该方案采用无服务器架构，运维成本低，支持精确的字段级血缘追踪，并具有良好的扩展性。

在实现过程中遇到的关键挑战有哪些？

关键挑战包括如何自动获取Redshift的数仓SQL和如何精确生成字段级血缘关系。

如何部署该方案以支持生产环境？

可以使用Docker Compose搭建DataHub Demo，或基于AWS EKS构建正式、稳定、高可用的环境。

该方案适合哪些类型的数据团队使用？

该方案非常适合中小型数据团队使用，提供了实用的数据血缘追踪工具。

🏷️