本文研究了基于视频的语言表示的大规模MAD数据集,并提出了一种新的指导模型的方法,以提高基于句子的方法在长视频上的表现。该方法在MAD数据集上获得了更好的效果。
完成下面两步后,将自动完成登录并继续当前操作。