沃尔玛如何使用 Apache Hudi 和 Spark 实现 SCD-2(渐变维度)?
📝
内容提要
数据是当今分析世界的宝贵资产。在向最终用户提供数据时,跟踪数据在一段时间内的变化非常重要。渐变维度 (SCD) 是随时间推移存储和管理当前和历史数据的维度。 在 SCD 的类型中,我们将特别关注类型 2(SCD 2),它保留了值的完整历史。每条记录都包含有效时间和到期时间,以标识记录处于活动状态的时间段。这可以通过少数审计列来实现。例如:有效开始日期、有效结束日期和活动记录指示器。 ...
➡️