KiVA:用于测试大型多模态模型的儿童启发式视觉类比
原文中文,约500字,阅读约需2分钟。发表于: 。通过与人类成年人和儿童进行对比,本文研究了大型多模态模型(LMMs)中的视觉类比推理。通过构建一个全新的基准测试,评估 LMMs 在视觉类比推理上的性能,并将其与儿童和成年人进行比较。结果发现,尽管像 GPT-4V、LLaVA-1.5 和 MANTIS 这样的模型能够有效地识别 “变化内容”,但它们在量化 “变化方式”...
本研究评估了大型多模态模型(LMMs)在视觉类比推理上的性能,并与儿童和成年人进行比较。结果显示,LMMs在量化变化方式并应用于新对象时存在困难,而儿童和成年人在类比推理能力上更强。这突显了在二维图像和文本数据上训练模型的局限性。