视觉去想象指导生成:了解自己不知道的知识
原文中文,约400字,阅读约需1分钟。发表于: 。在这项研究中,我们提出了一种创新的视觉幻觉概念,称为 “我知道(IK)” 幻觉,以解决所需回答为 “我不知道” 的场景。为了有效应对这个问题,我们提出了 VQAv2-IDK 基准,这是由人类标注人员确定的不可回答的图像问题对的子集。更进一步,我们提出了用于 IK 幻觉的视觉解幻指令生成方法,并介绍了 IDK-Instructions 视觉指令数据库。我们的实验证明了当前方法在处理 IK...
这项研究提出了一种名为“我知道(IK)”幻觉的创新视觉概念,旨在解决“我不知道”的场景。研究者提出了VQAv2-IDK基准和视觉解幻指令生成方法,并介绍了IDK-Instructions视觉指令数据库。实验证明了当前方法在处理IK幻觉时存在困难,但该方法有效减少了这些幻觉,证明了其多功能性。