小红花·文摘

本文研究了大规模视觉语言模型（LVLMs）在多对象幻觉方面的困难，通过引入基于识别的对象探针评估（ROPE），发现LVLMs在关注多个对象时更容易产生幻觉。对象类别分布、数据特定因素、显著性和频率以及模型内在行为都会影响幻觉行为。作者希望提供解决这些问题的见解和进展。