量子位 ·

CVPR’25跨模态因果对齐，让机器更懂视觉证据丨中大南洋理工等联合开源

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

中山大学与南洋理工大学等团队提出了跨模态因果对齐框架（CRA），旨在提升视频问答的时空定位准确性与可解释性。CRA通过三个模块优化因果推理，克服现有模型的统计偏差问题，已在CVPR 2025接收并开源代码。

🎯

🔎

CRA框架通过因果推理提升视频问答的可解释性，解决了现有模型依赖统计偏差的问题。这一创新不仅提高了模型的时空定位能力，还为AI在复杂场景下的决策提供了更可靠的依据，可能在自动驾驶和智能监控等领域产生深远影响。

CRA框架由三个核心模块组成：GSG、CMA和ECI。GSG模块通过去噪提升视频片段特征的准确性，CMA模块则通过双向对比学习增强视频与问答特征的对齐，而ECI模块则切断虚假因果链。这些模块的协同作用显著提升了模型的整体性能，值得关注。

CRA在NextGQA和STAR数据集上的实验结果显示，其性能超越了现有模型，尤其在弱监督条件下表现出色。这表明CRA框架在处理多模态数据时的有效性，未来可能为视频理解领域带来新的研究方向和应用场景。

❓

CRA旨在提升视频问答的时空定位准确性与可解释性。

CRA框架包含高斯平滑定位模块（GSG）、交叉模态对齐模块（CMA）和显式因果干预模块（ECI）。

GSG模块通过自适应高斯滤波去噪，精准估计视频片段的时间间隔，聚焦关键帧。

CMA模块利用双向对比学习，对齐视频片段特征与问答特征，增强跨模态一致性。

ECI模块通过前门和后门干预，消除多模态偏差，提升因果一致性。

CRA在NextGQA和STAR数据集上的实验结果显示，显著提升了模型的时空定位能力和因果推理的准确性。

🏷️