本文研究了语言引导定位视频中相关片段的问题,并提出了跨模态注意力模块和新的回归损失函数来提高定位精度。在Charades-STA和ActivityNet Captions数据集上超越了最先进的方法。
完成下面两步后,将自动完成登录并继续当前操作。