本文研究了多种视觉语言模型(如ChatGPT、Gemini和SAM)在显微镜图像理解和视觉任务中的表现。结果表明,ChatGPT和Gemini在视觉特征理解上表现优异,而SAM在分离伪影方面能力有限。研究还提出了“视觉描述提示”方法以提升模型性能,并评估了这些模型在文化多样性环境中的可靠性,发现仍面临幻觉和评估不一致的挑战。
完成下面两步后,将自动完成登录并继续当前操作。