该研究提出了一种新的多模态深度学习框架,可从文本和视觉数据中提取洞察力,模拟和评估人类对扫描电子显微镜图像的交互。该模型在解释、特征识别和检测以前未见的SEM图像中的缺陷方面表现出色,为科学成像应用引入了多用途的评估指标,进一步缩小人与机器解释在科学成像中的差距,为未来研究和广泛应用提供了广阔的可能性。
完成下面两步后,将自动完成登录并继续当前操作。