MovieSum:大型复杂文本摘要数据集,提供格式化剧本信息以及维基摘要 | ACL 2024 - 晓飞的算法工程笔记

💡 原文中文,约3300字,阅读约需8分钟。
📝

内容提要

MovieSum数据集包括2200部电影剧本及其维基百科情节摘要,用于电影剧本的抽象摘要。该数据集提供了带有IMDb ID的元数据,并详细描述了收集和过滤剧本的步骤,以及与其他数据集的比较。实验表明,最近的模型在长篇抽象摘要方面存在困难,论文希望能激发进一步研究。

🎯

关键要点

  • MovieSum数据集包括2200部电影剧本及其维基百科情节摘要,用于电影剧本的抽象摘要。
  • 该数据集手动格式化电影剧本以表示其结构元素,且比现有数据集大两倍。
  • 电影剧本的特点是长且结构化,包含场景标题、角色名、对话和详细场景描述。
  • 目前最大的电影剧本数据集ScriptBase-j仅包含917部剧本,且最新电影为2013年。
  • MovieSum数据集涵盖从1930年到2023年的各种类型电影,并附有IMDB ID以便访问外部知识。
  • 论文提供了MovieSum的详细描述,包括收集和过滤剧本的步骤,以及与其他数据集的比较。
  • 实验表明,最近的模型在长篇抽象摘要方面存在困难,论文希望能激发进一步研究。
  • 数据集中的电影剧本平均长度为29000字,摘要平均长度为717字,显示出高度抽象性。
  • 与现有数据集比较,MovieSum在文档长度和内容结构上具有优势,尤其是在电影剧本领域。
  • MovieSum克服了ScriptBase-j的两个关键限制,包括格式化质量和包含最新电影的能力。

延伸问答

MovieSum数据集包含多少部电影剧本?

MovieSum数据集包含2200部电影剧本。

MovieSum与现有数据集相比有什么优势?

MovieSum比现有数据集大两倍,并且提供了手动格式化的剧本和IMDB ID元数据。

MovieSum数据集的电影剧本平均长度是多少?

数据集中的电影剧本平均长度为29000字。

MovieSum数据集的摘要平均长度是多少?

摘要的平均长度为717字。

MovieSum数据集是如何收集和过滤剧本的?

剧本通过电影名称和发行年份识别重复项,并过滤掉没有文本内容或不完整的剧本。

MovieSum数据集的实验结果显示了什么?

实验表明,最近的模型在长篇抽象摘要方面存在困难,论文希望能激发进一步研究。

➡️

继续阅读