晓飞的算法工程笔记 ·

MovieSum：大型复杂文本摘要数据集，提供格式化剧本信息以及维基摘要 | ACL 2024 - 晓飞的算法工程笔记

💡 原文中文，约3300字，阅读约需8分钟。

📝

内容提要

MovieSum数据集包括2200部电影剧本及其维基百科情节摘要，用于电影剧本的抽象摘要。该数据集提供了带有IMDb ID的元数据，并详细描述了收集和过滤剧本的步骤，以及与其他数据集的比较。实验表明，最近的模型在长篇抽象摘要方面存在困难，论文希望能激发进一步研究。

🎯

关键要点

MovieSum数据集包括2200部电影剧本及其维基百科情节摘要，用于电影剧本的抽象摘要。
该数据集手动格式化电影剧本以表示其结构元素，且比现有数据集大两倍。
电影剧本的特点是长且结构化，包含场景标题、角色名、对话和详细场景描述。
目前最大的电影剧本数据集ScriptBase-j仅包含917部剧本，且最新电影为2013年。
MovieSum数据集涵盖从1930年到2023年的各种类型电影，并附有IMDB ID以便访问外部知识。
论文提供了MovieSum的详细描述，包括收集和过滤剧本的步骤，以及与其他数据集的比较。
实验表明，最近的模型在长篇抽象摘要方面存在困难，论文希望能激发进一步研究。
数据集中的电影剧本平均长度为29000字，摘要平均长度为717字，显示出高度抽象性。
与现有数据集比较，MovieSum在文档长度和内容结构上具有优势，尤其是在电影剧本领域。
MovieSum克服了ScriptBase-j的两个关键限制，包括格式化质量和包含最新电影的能力。

❓

延伸问答

MovieSum数据集包含多少部电影剧本？

MovieSum数据集包含2200部电影剧本。

MovieSum与现有数据集相比有什么优势？

MovieSum比现有数据集大两倍，并且提供了手动格式化的剧本和IMDB ID元数据。

MovieSum数据集的电影剧本平均长度是多少？

数据集中的电影剧本平均长度为29000字。

MovieSum数据集的摘要平均长度是多少？

摘要的平均长度为717字。

MovieSum数据集是如何收集和过滤剧本的？

剧本通过电影名称和发行年份识别重复项，并过滤掉没有文本内容或不完整的剧本。

MovieSum数据集的实验结果显示了什么？

实验表明，最近的模型在长篇抽象摘要方面存在困难，论文希望能激发进一步研究。

🏷️

标签

IMDb ID MovieSum数据集工程抽象摘要数据集格式化电影剧本算法维基百科情节摘要

➡️

继续阅读

OpenAI大牛公布自家Harness工程模板：自我改进的RSI知识库
2026年造个百万行代码的产品，零行人工手写，三个月干完，凭啥？ OpenAI内部团队搞了个狠活：从空的Git仓库起步，五个月堆出百万行代码，全靠Code...
OpenAI大牛开源自家Harness工程：自我改进RSI模板
2026年造个百万行代码的产品，零行人工手写，三个月干完，凭啥？ OpenAI内部团队搞了个狠活：从空的Git仓库起步，五个月堆出百万行代码，全靠Code...
梗图：我们还在讨论循环工程吗？还是已经开始讨论图工程了？
梗图：我们还在讨论循环工程吗？还是已经开始讨论图工程了？
tsshd 0.1.9：低延迟 SSH 工具开始补工程上的短板
tsshd 0.1.9 增加会话 detach/attach 和 ProxyCommand 支持，还修了高负载下的内存驻留、阻塞、连接超时问题。比起低延迟...
AI Agent 工程的必然演进：CLI、Skills、Harness 与 Loop