本文介绍了多个视频处理相关的数据集和模型,如 Moments-OVRE、Countix 和 TVR,重点在于视频中重复动作的识别与计数。研究表明,结合音频信息和新型网络结构可以显著提高模型性能,尤其在复杂视觉条件下。此外,提出的多模态检索任务和数据集为视频分析提供了新的方法和基准。
完成下面两步后,将自动完成登录并继续当前操作。