本文介绍了多个视频因果推理相关的数据集和框架,如CLEVRER、Vis-Causal和CMQR,指出现有模型在因果推理任务中的不足。研究提出结合语言输入与因果关系理解的方法,展示如何通过高质量数据集和模型改进视觉问答性能,并探讨在不确定数据中学习因果结构的挑战。
完成下面两步后,将自动完成登录并继续当前操作。