[狮子: 1] 和 [老虎: 2] 和 [熊: 3],哇喔!配备 LLM 的文学共指注释

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

介绍了一个包含100部英文小说的新数据集,其中包含29,103个指代注释和210,532个标记。文档长度平均为2,105.3个单词,是其他基准数据集的四倍长。数据集还包含了难度指代问题的示例,可用于评估指代消解任务的跨领域性能和分析长距离文档内指代的特征。

🎯

关键要点

  • 提出了一个新的数据集,包含100部英文小说的29,103个指代注释。
  • 数据集涵盖了210,532个标记,文档平均长度为2,105.3个单词。
  • 该数据集的文档长度是其他基准数据集的四倍长。
  • 数据集中包含了文学中常见的难度指代问题的示例。
  • 该数据集可用于评估指代消解任务的跨领域性能。
  • 数据集还可分析长距离文档内指代的特征。
➡️

继续阅读