本文研究了大规模视觉语言模型(LVLMs)在多对象幻觉方面的困难,通过引入基于识别的对象探针评估(ROPE),发现LVLMs在关注多个对象时更容易产生幻觉。对象类别分布、数据特定因素、显著性和频率以及模型内在行为都会影响幻觉行为。作者希望提供解决这些问题的见解和进展。
完成下面两步后,将自动完成登录并继续当前操作。