小红花·文摘

该研究提出了一种新的多模态深度学习框架，可从文本和视觉数据中提取洞察力，模拟和评估人类对扫描电子显微镜图像的交互。该模型在解释、特征识别和检测以前未见的SEM图像中的缺陷方面表现出色，为科学成像应用引入了多用途的评估指标，进一步缩小人与机器解释在科学成像中的差距，为未来研究和广泛应用提供了广阔的可能性。