CVPR’25跨模态因果对齐,让机器更懂视觉证据丨中大南洋理工等联合开源
💡
原文中文,约2600字,阅读约需7分钟。
📝
内容提要
中山大学与南洋理工大学等团队提出了跨模态因果对齐框架(CRA),旨在提升视频问答的时空定位准确性与可解释性。CRA通过三个模块优化因果推理,克服现有模型的统计偏差问题,已在CVPR 2025接收并开源代码。
🎯
关键要点
- 中山大学与南洋理工大学等团队提出跨模态因果对齐框架(CRA),旨在提升视频问答的时空定位准确性与可解释性。
- CRA通过因果干预和跨模态对齐,显著提升视频问答的性能。
- 现有视频问答模型依赖统计偏差,导致回答缺乏可解释性。
- CRA框架包含三个核心模块:高斯平滑定位模块(GSG)、交叉模态对齐模块(CMA)和显式因果干预模块(ECI)。
- GSG模块通过自适应高斯滤波去噪,精准估计视频片段的时间间隔。
- CMA模块利用双向对比学习,增强视频与问答特征的对齐效果。
- ECI模块通过前门和后门干预,消除多模态偏差,提升因果一致性。
- CRA在NextGQA和STAR数据集上的实验结果显示,显著提升了模型的时空定位能力和因果推理的准确性。
- CRA框架代码已开源,为视频理解提供了新的因果推理范式,可能推动可信AI应用的发展。
❓
延伸问答
跨模态因果对齐框架(CRA)有什么主要目标?
CRA旨在提升视频问答的时空定位准确性与可解释性。
CRA框架包含哪些核心模块?
CRA框架包含高斯平滑定位模块(GSG)、交叉模态对齐模块(CMA)和显式因果干预模块(ECI)。
高斯平滑定位模块(GSG)是如何工作的?
GSG模块通过自适应高斯滤波去噪,精准估计视频片段的时间间隔,聚焦关键帧。
交叉模态对齐模块(CMA)如何增强视频与问答特征的对齐效果?
CMA模块利用双向对比学习,对齐视频片段特征与问答特征,增强跨模态一致性。
显式因果干预模块(ECI)有什么作用?
ECI模块通过前门和后门干预,消除多模态偏差,提升因果一致性。
CRA框架在实验中表现如何?
CRA在NextGQA和STAR数据集上的实验结果显示,显著提升了模型的时空定位能力和因果推理的准确性。
➡️