小红花·文摘

该文章介绍了一个新的联合视频和文本摘要任务，通过构建人类注释数据集VideXum来解决此问题，并使用新的度量标准VT-CLIPScore评估跨模态摘要的语义一致性。作者的VTSUM-BILP模型在此任务上取得了有希望的性能，并为未来研究建立了基准。