中山大学与南洋理工大学等团队提出了跨模态因果对齐框架(CRA),旨在提升视频问答的时空定位准确性与可解释性。CRA通过三个模块优化因果推理,克服现有模型的统计偏差问题,已在CVPR 2025接收并开源代码。
本文介绍了一种新型动作定位方法,利用视觉线索和伪注释提高视频中动作的时空定位精度。通过多种算法和模型的结合,该方法在THUMOS14和ActivityNet v1.3数据集上表现优异,展示了其有效性和优势。
完成下面两步后,将自动完成登录并继续当前操作。