小红花·文摘

本文提出了一个评估视觉问答（VQA）推理能力的框架，并引入自上而下的校准技术，以提升模型在不完美感知下的推理能力。研究显示，多任务变压器模型在视觉识别和推理方面表现优越，尤其是对象检测对推理的显著帮助。此外，论文还探讨了因果推理在视觉表征学习中的应用及未来研究方向。