小红花·文摘

本文介绍了多事件视频-文本检索（MeVTR）任务，旨在解决视频内容通常包含多个事件，而文本如用户查询或网页元数据倾向于特定和单一事件的实际情况。提出了一个简单的模型Me-Retriever，通过全面的实验证明，在视频到文本和文本到视频任务中胜过其他模型，为MeVTR任务建立了一个强大的基准。