本文提出了一种层次对齐网络框架,通过将视频和文本分解为事件、动作和实体三个层次,构建层次表示以提高视频文本检索的效率和准确性。实验结果表明,该框架在多个数据集上优于现有方法,验证了层次表示的有效性。
完成下面两步后,将自动完成登录并继续当前操作。