MovieSum:电影剧本的抽象摘要数据集
💡
原文中文,约1500字,阅读约需4分钟。
📝
内容提要
MovieQA数据集用于评估从视频和文本中理解故事的能力,包含408部电影的14,944个问题。研究展示了基于叙述结构的摘要模型和多模态信息的应用,旨在提升自动文摘的性能和准确性。
🎯
关键要点
- MovieQA数据集用于评估从视频和文本中自动理解故事,包含408部电影的14,944个问题。
- 研究提出了一种基于叙述结构的提取式摘要模型,通过关键节点改善摘要性能。
- 使用多模态信息构建稀疏电影图,以识别电影中的转折点,提升电影概括的完整性。
- 介绍了一个摘要数据集,评估神经模型和邻近算法,显示非最优模型在生成情节事件方面的竞争力。
- BookSum数据集覆盖文学领域,包含高度抽象的人工撰写摘要,支持自动文摘模型的训练和测试。
- SyMoN数据集包含5,193个视频摘要,旨在促进多模态故事理解的研究。
- NarraSum数据集收集了12.2万个叙述文档及其对应的提取式摘要,促进摘要研究和自然语言理解。
- 提出模块化方法总结电视节目,使用新的指标评估生成摘要的精确度与召回率。
- 针对电影剧本等长篇故事性文本,提出两阶段的抽象概括方法,优于以往的摘要方法。
- 构建多语言视频故事数据集M-SYMON,展示多语言视频文本对齐的挑战和注释的有效性。
❓
延伸问答
MovieQA数据集的主要用途是什么?
MovieQA数据集用于评估从视频和文本中自动理解故事的能力。
研究中提出的提取式摘要模型有什么特点?
该模型基于叙述结构,通过关键节点改善摘要性能。
如何利用多模态信息提升电影概括的完整性?
通过构建稀疏电影图来识别电影中的转折点,从而创建更具信息量的概括。
NarraSum数据集的主要内容是什么?
NarraSum数据集收集了12.2万个叙述文档及其对应的提取式摘要。
BookSum数据集与MovieQA数据集有什么不同?
BookSum数据集覆盖文学领域,包含高度抽象的人工撰写摘要,而MovieQA专注于电影故事理解。
M-SYMON数据集的主要研究目标是什么?
M-SYMON数据集旨在展示多语言视频文本对齐的挑战和注释的有效性。
➡️