北京大学可视化与可视分析博客 ·

以语义属性关联为指导的交互式子空间聚类分析（Interactive Subspace Cluster Analysis Guided by Semantic Attribute Associations）

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

本文介绍了一种从语义角度生成和分析子空间的新范例，解决了子空间数量过多、结果存在冗余和偏差等问题。以菲律宾家庭收入和支出数据集为例，介绍了范例的技术细节，包括语义空间生成、概念维度分组、语义子空间投影、语义子空间再投影、语义子空间增强和手动构建新的子空间等步骤。该范例可以帮助分析人员选择合适的子空间进行分析，避免数据中的重要模式被无关维度掩盖。

🎯

关键要点

子空间是由维度子集构成的数据空间，分析人员需选择合适的子空间进行分析。
子空间数量过多是子空间分析的主要挑战，包含d个维度的数据有2d-1个子空间。
子空间聚类算法存在三个问题：子空间数量过多、结果冗余、结果偏差。
本文提出从语义角度生成和分析子空间的新范例，核心思路是根据维度语义生成子空间。
案例使用菲律宾家庭收入和支出数据集，包含44个维度。
第一步是语义空间生成，使用维基百科和特定领域文本训练通用词嵌入，得到维度的语义向量。
第二步是概念维度分组，包括语义空间校正和生成语义子空间，用户可手动调整维度位置。
第三步是语义子空间投影，通过PCA投影至二维空间，使用双标图可视化数据项和维度轴。
第四步是语义子空间再投影，观察已创建子聚类在其他子空间中的行为。
支持语义子空间增强，系统自动添加聚类质量提升最大的维度，识别潜在模式。
用户可手动构建新的子空间，比较不同年龄组家庭之间的差异。

🏷️

以语义属性关联为指导的交互式子空间聚类分析（Interactive Subspace Cluster Analysis Guided by Semantic Attribute Associations）

内容提要

关键要点

标签

继续阅读