机器之心 ·

精度提升20%，中科院、南京理工AI方法进行光电子能谱高维数据精细解析

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

中国科学院与南京理工大学合作开发的多阶段无监督聚类算法（MSCA）在Nano-ARPES数据集上显著提升了聚类精度，尤其在细微能带差异识别方面，相较于传统K-means算法提高约20%。该研究为固体材料科学提供了重要的数据分析工具，未来将集成到Nano-ARPES系统中，助力基础科研。

🎯

🔎

多阶段无监督聚类算法（MSCA）在处理复杂能带色散样品时表现出色，尤其是在细微能带差异的识别上，相较于传统K-means算法，精度提升约20%。这种提升使得研究人员能够更准确地分析材料的电子结构，尤其是在量子材料的研究中具有重要意义。

MSCA算法的引入将显著增强Nano-ARPES系统的功能，尤其是在低信噪比的情况下，能够更快速地识别感兴趣的区域。这意味着研究人员可以在更短的时间内获得高质量的数据，从而加速基础科研的进展。

研究中使用了多种性能指标（如准确率、召回率等）来评估MSCA与K-means算法的表现。MSCA在各项指标上均有显著提升，尤其是在处理不平衡数据集时，能够更好地避免错误分类，这为算法的实际应用提供了更强的保障。

❓

MSCA算法在聚类精度上提升约20%，特别是在细微能带差异的识别方面表现优于传统K-means算法。

MSCA算法通过三个阶段的数据处理，结合实空间和动量空间的聚类分析，捕捉细微的能带差异。

传统K-means算法难以区分细微的能带差异，尤其是在不同衬底或层数的MoS2样品中表现欠佳。

MSCA算法将集成到HEPS的Nano-ARPES系统中，能够加速基础科研成果的产出，特别是在处理复杂能带色散样品方面具有重要价值。

MSCA算法的Macro Accuracy、Precision、Recall和F1 Score分别提升了2%、6%、20%和18%。

MSCA通过监控每次独立采集之间的相似性，去除偏差数据，从而提高Nano-ARPES系统对低频波动的鲁棒性。

🏷️