小红花·文摘

本文介绍了多个视频因果推理相关的数据集和框架，如CLEVRER、Vis-Causal和CMQR，指出现有模型在因果推理任务中的不足。研究提出结合语言输入与因果关系理解的方法，展示如何通过高质量数据集和模型改进视觉问答性能，并探讨在不确定数据中学习因果结构的挑战。