本研究探讨了多模态大语言模型在科学图像生成中的表现,使用ScImage基准评估不同模型的空间、数字和属性理解能力。结果表明,尽管GPT-4o在简单提示下表现良好,但在复杂提示中,所有模型均面临显著挑战。
完成下面两步后,将自动完成登录并继续当前操作。