视觉语言模型中的多物体幻觉
原文中文,约500字,阅读约需2分钟。发表于: 。大规模视觉语言模型(LVLMs)在对象幻觉方面经常遇到困难,会产生图像中不存在的对象。本研究系统地调查了多对象幻觉,在同时关注多个对象任务时,模型如何错误地理解(如发明不存在的对象或分心)。我们引入了基于识别的对象探针评估(ROPE),这是一种自动化评估协议,在测试过程中考虑到单个图像中的对象类别分布,并使用视觉引用提示来消除歧义。通过全面的实证研究和分析导致多对象幻觉的潜在因素,我们发现(...
本文研究了大规模视觉语言模型(LVLMs)在多对象幻觉方面的困难,通过引入基于识别的对象探针评估(ROPE),发现LVLMs在关注多个对象时更容易产生幻觉。对象类别分布、数据特定因素、显著性和频率以及模型内在行为都会影响幻觉行为。作者希望提供解决这些问题的见解和进展。