MovieSum:大型复杂文本摘要数据集,提供格式化剧本信息以及维基摘要 | ACL 2024 - 晓飞的算法工程笔记
💡
原文中文,约3300字,阅读约需8分钟。
📝
内容提要
MovieSum数据集包括2200部电影剧本及其维基百科情节摘要,用于电影剧本的抽象摘要。该数据集提供了带有IMDb ID的元数据,并详细描述了收集和过滤剧本的步骤,以及与其他数据集的比较。实验表明,最近的模型在长篇抽象摘要方面存在困难,论文希望能激发进一步研究。
🎯
关键要点
- MovieSum数据集包括2200部电影剧本及其维基百科情节摘要,用于电影剧本的抽象摘要。
- 该数据集手动格式化电影剧本以表示其结构元素,且比现有数据集大两倍。
- 电影剧本的特点是长且结构化,包含场景标题、角色名、对话和详细场景描述。
- 目前最大的电影剧本数据集ScriptBase-j仅包含917部剧本,且最新电影为2013年。
- MovieSum数据集涵盖从1930年到2023年的各种类型电影,并附有IMDB ID以便访问外部知识。
- 论文提供了MovieSum的详细描述,包括收集和过滤剧本的步骤,以及与其他数据集的比较。
- 实验表明,最近的模型在长篇抽象摘要方面存在困难,论文希望能激发进一步研究。
- 数据集中的电影剧本平均长度为29000字,摘要平均长度为717字,显示出高度抽象性。
- 与现有数据集比较,MovieSum在文档长度和内容结构上具有优势,尤其是在电影剧本领域。
- MovieSum克服了ScriptBase-j的两个关键限制,包括格式化质量和包含最新电影的能力。
➡️