大语言模型在计算机视觉领域中通过不同接口机制实现图像字幕和视觉问题回答任务。实验评估发现现有机制在多个任务中表现更好,并识别出一种新的接口机制,获得接近最优结果并降低训练时间。
本文调查了视觉问题回答领域,分类了数据集和方法,展示了最新趋势、挑战和改进方向,探索了多模态问答和相关任务,并提出了未来研究的开放性问题。
该文介绍了一种新型基准——基于视觉问题回答的负面对象存在评估(NOPE),用于评估视觉语言模型中的对象幻觉问题。研究发现,所有模型在负面代词上的准确率都低于10%,且词汇多样性、大范围的问题类型和与场景相关的对象会增加视觉语言模型中对象幻觉的风险。
完成下面两步后,将自动完成登录并继续当前操作。