小红花·文摘

本文研究了语言引导定位视频中相关片段的问题，并提出了跨模态注意力模块和新的回归损失函数来提高定位精度。在Charades-STA和ActivityNet Captions数据集上超越了最先进的方法。