亚马逊AWS官方博客 ·

浅谈企业 BI 数据建模流程与指标定义的一些实践

💡 原文中文，约9400字，阅读约需23分钟。

📝

内容提要

在商业智能项目中，宽表模型整合多张表以便查询，包含维度和指标。需求调研需拆解指标与维度，确保数据一致性。复杂计算常需自定义SQL，维护困难。建议建立指标库、预计算关键指标，并在ETL中实现复杂逻辑，以提高效率和协作。强调深入沟通与明确需求，确保数据开发流程顺畅。

🎯

🔎

宽表模型通过整合多张表，提供了灵活的查询方式，方便业务用户进行数据分析。然而，这种模型也带来了维护复杂性，尤其是在处理复杂计算时，往往需要自定义SQL，增加了开发和维护的难度。企业在实施宽表模型时，应权衡其灵活性与维护成本。

建立指标库有助于统一指标定义，减少口径不一致的风险。然而，指标库的维护可能会变得复杂，尤其是在需求频繁变化的情况下。企业需要评估自身的需求和资源，合理规划指标库的使用，以避免因过度依赖而导致的维护负担。

在ETL过程中提前实现复杂逻辑，可以确保数据口径的一致性，减少前端计算压力。这种方法适用于需要频繁使用的复杂指标，但企业需注意，过度下沉可能导致灵活性降低。因此，选择下沉逻辑时应考虑业务需求的稳定性。

❓

宽表模型将多张事实表和维度表整合成一张大表，便于查询和分析，支持业务用户灵活组合维度和度量。

需求调研需区分指标（需计算的度量值）和维度（用于分类汇总），并明确过滤条件，以确保数据一致性。

复杂计算常超出BI工具的能力，需自定义SQL实现，导致指标定义不统一和维护困难，增加了开发成本。

建立指标库对指标的计算公式、粒度和过滤口径进行管理，确保所有人对指标的理解一致，减少口径不统一的风险。

预计算关键指标可以减少前端计算压力，适用于固定窗口统计，提高查询效率和响应速度。

通过明确角色与责任，深入沟通业务需求，确保数据团队与业务方的理解一致，促进高效协作。

🏷️