小红花·文摘

本研究探讨了多模态大语言模型在科学图像生成中的表现，使用ScImage基准评估不同模型的空间、数字和属性理解能力。结果表明，尽管GPT-4o在简单提示下表现良好，但在复杂提示中，所有模型均面临显著挑战。