MovieSum:大型复杂文本摘要数据集,提供格式化剧本信息以及维基摘要 | ACL 2024 - 晓飞的算法工程笔记
原文中文,约3300字,阅读约需8分钟。发表于: 。数据集MovieSum包括2200部电影剧本及其维基百科情节摘要,用于电影剧本的抽象摘要。该数据集手动格式化电影剧本以表示它们的结构元素。与现有数据集相比,MovieSum具有几个独特的特点:(1) 它包括电影剧本,这些剧本比电视剧本更长。(2) 它是先前电影剧本数据集的两倍大小。(3) 它提供了带
MovieSum数据集包括2200部电影剧本及其维基百科情节摘要,用于电影剧本的抽象摘要。该数据集提供了带有IMDb ID的元数据,并详细描述了收集和过滤剧本的步骤,以及与其他数据集的比较。实验表明,最近的模型在长篇抽象摘要方面存在困难,论文希望能激发进一步研究。