The State and Future of Summarization Datasets
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究探讨了自动摘要领域的数据集现状,指出注释工作缺乏统一性,低资源语言数据集稀缺,且主要集中在新闻领域。提出了新的本体框架,以便用户探索数据集,推动未来研究的系统化。
🎯
关键要点
- 自动摘要领域的注释工作存在孤立和术语不统一的问题。
- 研究调查了超过100种语言中的133个数据集。
- 低资源语言缺乏高质量的数据集。
- 现有数据集主要集中在新闻领域,并依赖于自动收集的远程监督。
- 提出了一种新的本体框架,涵盖样本特性、收集方法和分布。
- 研究提供了一个网络界面和模板,方便用户探索本体和数据集,推动未来研究的系统化。
➡️