本文介绍了一种基于视觉转换器(ViTs)的视觉推理模型,通过优化物体实体及其关系概念,提升了ViTs的推理能力。同时,引入了概念特征字典,促进全局关系推理和语义对象特定一一对应关系学习。实验证明,该模型在HICO和GQA上的性能优于之前的方法,并考虑了ViT变体和超参数的稳健性。
完成下面两步后,将自动完成登录并继续当前操作。