小红花·文摘

该文介绍了一种新型基准——基于视觉问题回答的负面对象存在评估（NOPE），用于评估视觉语言模型中的对象幻觉问题。研究发现，所有模型在负面代词上的准确率都低于10%，且词汇多样性、大范围的问题类型和与场景相关的对象会增加视觉语言模型中对象幻觉的风险。