本文提出了一个评估视觉问答(VQA)推理能力的框架,并引入自上而下的校准技术,以提升模型在不完美感知下的推理能力。研究显示,多任务变压器模型在视觉识别和推理方面表现优越,尤其是对象检测对推理的显著帮助。此外,论文还探讨了因果推理在视觉表征学习中的应用及未来研究方向。
完成下面两步后,将自动完成登录并继续当前操作。