小红花·文摘

中山大学与南洋理工大学等团队提出了跨模态因果对齐框架（CRA），旨在提升视频问答的时空定位准确性与可解释性。CRA通过三个模块优化因果推理，克服现有模型的统计偏差问题，已在CVPR 2025接收并开源代码。

量子位 ·

本文介绍了一种新型动作定位方法，利用视觉线索和伪注释提高视频中动作的时空定位精度。通过多种算法和模型的结合，该方法在THUMOS14和ActivityNet v1.3数据集上表现优异，展示了其有效性和优势。

BriefGPT - AI 论文速递 ·