暗无天日 ·

LLM 抽属性，规则判重复：CMDB 数据治理的一种分工模式

💡 原文中文，约7100字，阅读约需17分钟。

📝

内容提要

本文探讨了如何利用大型语言模型（LLM）和规则系统解决配置管理数据库（CMDB）中的数据重复问题。通过四个阶段的流水线，LLM提取非结构化文本中的结构化属性，规则层负责判定重复。这种方法有效应对命名不一致和数据质量等挑战，确保数据的准确性和可审计性，最终提升CMDB的数据治理效率，适用于多种场景。

🎯

🔎

CMDB中的数据重复问题源于手工录入和命名不一致，导致同一设备被多次登记。传统方法如精确匹配和模糊匹配在处理这些问题时存在局限性。本文提出的LLM与规则结合的方案，通过提取结构化属性并进行规则验证，有效提升了数据治理的准确性和可审计性。

文章详细描述了四阶段流水线的实施过程，包括原始描述加元数据、类别感知Schema生成、LLM解析和规则验证。每个阶段都有其特定的任务和目标，确保最终输出的结构化数据符合预定义标准，从而提高数据的可用性和准确性。

将LLM用于属性提取而将重复判定交给规则层，能够有效降低LLM的不确定性。规则层的判定逻辑可解释且可审计，适应不同组织的需求。这种分工模式不仅适用于CMDB，也可推广至其他需要将非结构化文本转化为结构化数据的场景。

❓

CMDB 中数据重复问题的根源在于标识字段靠手工录入，没有强制校验，导致同一台机器以多种名称登记。

传统方法如精确匹配、正则匹配、模糊匹配和语义搜索在处理数据重复时存在严格要求、规则数量爆炸、无法处理语义等局限性。

通过四个阶段的流水线，LLM 提取非结构化文本中的结构化属性，规则层负责判定重复，从而解决数据重复问题。

四阶段流水线包括：原始描述加元数据、类别感知 Schema 生成、LLM 解析和规则验证。

LLM 能处理不一致的表述、缩写和乱序，能够有效提取结构化字段，确保输出符合预定义的 Schema。

数据治理的最终目标是提升 CMDB 的数据治理效率，确保数据的准确性和可用性。

🏷️