以语义属性关联为指导的交互式子空间聚类分析(Interactive Subspace Cluster Analysis Guided by Semantic Attribute Associations)

以语义属性关联为指导的交互式子空间聚类分析(Interactive Subspace Cluster Analysis Guided by Semantic Attribute Associations)

💡 原文中文,约1900字,阅读约需5分钟。
📝

内容提要

本文介绍了一种从语义角度生成和分析子空间的新范例,解决了子空间数量过多、结果存在冗余和偏差等问题。以菲律宾家庭收入和支出数据集为例,介绍了范例的技术细节,包括语义空间生成、概念维度分组、语义子空间投影、语义子空间再投影、语义子空间增强和手动构建新的子空间等步骤。该范例可以帮助分析人员选择合适的子空间进行分析,避免数据中的重要模式被无关维度掩盖。

🎯

关键要点

  • 子空间是由维度子集构成的数据空间,分析人员需选择合适的子空间进行分析。
  • 子空间数量过多是子空间分析的主要挑战,包含d个维度的数据有2d-1个子空间。
  • 子空间聚类算法存在三个问题:子空间数量过多、结果冗余、结果偏差。
  • 本文提出从语义角度生成和分析子空间的新范例,核心思路是根据维度语义生成子空间。
  • 案例使用菲律宾家庭收入和支出数据集,包含44个维度。
  • 第一步是语义空间生成,使用维基百科和特定领域文本训练通用词嵌入,得到维度的语义向量。
  • 第二步是概念维度分组,包括语义空间校正和生成语义子空间,用户可手动调整维度位置。
  • 第三步是语义子空间投影,通过PCA投影至二维空间,使用双标图可视化数据项和维度轴。
  • 第四步是语义子空间再投影,观察已创建子聚类在其他子空间中的行为。
  • 支持语义子空间增强,系统自动添加聚类质量提升最大的维度,识别潜在模式。
  • 用户可手动构建新的子空间,比较不同年龄组家庭之间的差异。
➡️

继续阅读