CVPR’25跨模态因果对齐,让机器更懂视觉证据丨中大南洋理工等联合开源

💡 原文中文,约2600字,阅读约需7分钟。
📝

内容提要

中山大学与南洋理工大学等团队提出了跨模态因果对齐框架(CRA),旨在提升视频问答的时空定位准确性与可解释性。CRA通过三个模块优化因果推理,克服现有模型的统计偏差问题,已在CVPR 2025接收并开源代码。

🎯

关键要点

  • 中山大学与南洋理工大学等团队提出跨模态因果对齐框架(CRA),旨在提升视频问答的时空定位准确性与可解释性。
  • CRA通过因果干预和跨模态对齐,显著提升视频问答的性能。
  • 现有视频问答模型依赖统计偏差,导致回答缺乏可解释性。
  • CRA框架包含三个核心模块:高斯平滑定位模块(GSG)、交叉模态对齐模块(CMA)和显式因果干预模块(ECI)。
  • GSG模块通过自适应高斯滤波去噪,精准估计视频片段的时间间隔。
  • CMA模块利用双向对比学习,增强视频与问答特征的对齐效果。
  • ECI模块通过前门和后门干预,消除多模态偏差,提升因果一致性。
  • CRA在NextGQA和STAR数据集上的实验结果显示,显著提升了模型的时空定位能力和因果推理的准确性。
  • CRA框架代码已开源,为视频理解提供了新的因果推理范式,可能推动可信AI应用的发展。

延伸问答

跨模态因果对齐框架(CRA)有什么主要目标?

CRA旨在提升视频问答的时空定位准确性与可解释性。

CRA框架包含哪些核心模块?

CRA框架包含高斯平滑定位模块(GSG)、交叉模态对齐模块(CMA)和显式因果干预模块(ECI)。

高斯平滑定位模块(GSG)是如何工作的?

GSG模块通过自适应高斯滤波去噪,精准估计视频片段的时间间隔,聚焦关键帧。

交叉模态对齐模块(CMA)如何增强视频与问答特征的对齐效果?

CMA模块利用双向对比学习,对齐视频片段特征与问答特征,增强跨模态一致性。

显式因果干预模块(ECI)有什么作用?

ECI模块通过前门和后门干预,消除多模态偏差,提升因果一致性。

CRA框架在实验中表现如何?

CRA在NextGQA和STAR数据集上的实验结果显示,显著提升了模型的时空定位能力和因果推理的准确性。

➡️

继续阅读