V2Xum-LLM：跨模态视频摘要与时间提示指导的调节

原文约200字，阅读约需1分钟。发表于：。

视频摘要旨在创建具有简短、准确和连贯特点的长视频摘要。通过引入 Instruct-V2Xum 数据集和 V2Xum-LLM 框架，该研究旨在解决现有视频摘要数据集的不足以及从单模态到多模态视频内容摘要的需求。

该文章介绍了一个新的联合视频和文本摘要任务，通过构建人类注释数据集VideXum来解决此问题，并使用新的度量标准VT-CLIPScore评估跨模态摘要的语义一致性。作者的VTSUM-BILP模型在此任务上取得了有希望的性能，并为未来研究建立了基准。