该论文调查了自然语言视频定位 (TSGV) 的基本概念和当前研究状况,并讨论了未来的研究方向,着重介绍了 TSGV 的多模态理解和交互技术,构建了 TSGV 技术的分类法,讨论了当前研究中存在的问题并分享了有前途的研究方向。
完成下面两步后,将自动完成登录并继续当前操作。