小红花·文摘

本文介绍了一种基于视觉转换器（ViTs）的视觉推理模型，通过优化物体实体及其关系概念，提升了ViTs的推理能力。同时，引入了概念特征字典，促进全局关系推理和语义对象特定一一对应关系学习。实验证明，该模型在HICO和GQA上的性能优于之前的方法，并考虑了ViT变体和超参数的稳健性。