该文章介绍了一个新的联合视频和文本摘要任务,通过构建人类注释数据集VideXum来解决此问题,并使用新的度量标准VT-CLIPScore评估跨模态摘要的语义一致性。作者的VTSUM-BILP模型在此任务上取得了有希望的性能,并为未来研究建立了基准。
完成下面两步后,将自动完成登录并继续当前操作。