小红花·文摘

本文研究了多种视觉语言模型（如ChatGPT、Gemini和SAM）在显微镜图像理解和视觉任务中的表现。结果表明，ChatGPT和Gemini在视觉特征理解上表现优异，而SAM在分离伪影方面能力有限。研究还提出了“视觉描述提示”方法以提升模型性能，并评估了这些模型在文化多样性环境中的可靠性，发现仍面临幻觉和评估不一致的挑战。