研究表明,大型语言模型和视觉-语言模型在空间理解和推理上存在不足。评估发现:(1)空间推理对这些模型是挑战;(2)视觉-语言模型表现常不如纯语言模型;(3)多模态模型在有足够文本线索时对视觉信息依赖减少。通过利用视觉和文本冗余可以提升性能,研究旨在改进空间智能,缩小与人类智能的差距。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: