💡
原文中文,约1900字,阅读约需5分钟。
📝
内容提要
本文介绍了一种从语义角度生成和分析子空间的新范例,解决了子空间数量过多、结果存在冗余和偏差等问题。以菲律宾家庭收入和支出数据集为例,介绍了范例的技术细节,包括语义空间生成、概念维度分组、语义子空间投影、语义子空间再投影、语义子空间增强和手动构建新的子空间等步骤。该范例可以帮助分析人员选择合适的子空间进行分析,避免数据中的重要模式被无关维度掩盖。
🎯
关键要点
- 子空间是由维度子集构成的数据空间,分析人员需选择合适的子空间进行分析。
- 子空间数量过多是子空间分析的主要挑战,包含d个维度的数据有2d-1个子空间。
- 子空间聚类算法存在三个问题:子空间数量过多、结果冗余、结果偏差。
- 本文提出从语义角度生成和分析子空间的新范例,核心思路是根据维度语义生成子空间。
- 案例使用菲律宾家庭收入和支出数据集,包含44个维度。
- 第一步是语义空间生成,使用维基百科和特定领域文本训练通用词嵌入,得到维度的语义向量。
- 第二步是概念维度分组,包括语义空间校正和生成语义子空间,用户可手动调整维度位置。
- 第三步是语义子空间投影,通过PCA投影至二维空间,使用双标图可视化数据项和维度轴。
- 第四步是语义子空间再投影,观察已创建子聚类在其他子空间中的行为。
- 支持语义子空间增强,系统自动添加聚类质量提升最大的维度,识别潜在模式。
- 用户可手动构建新的子空间,比较不同年龄组家庭之间的差异。
➡️