小红花·文摘

本文提出了一种层次对齐网络框架，通过将视频和文本分解为事件、动作和实体三个层次，构建层次表示以提高视频文本检索的效率和准确性。实验结果表明，该框架在多个数据集上优于现有方法，验证了层次表示的有效性。