可验证的生成带有子句级细粒度引用

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

通过使用双向长短期记忆网络和环境信息,可以检测需要引用的句子。构建了一个比以前数据集大数个数量级的新数据集,在标准数据集和新数据集上表现出很高的性能。使用可解释的模型揭示了促进和抑制引用的特定语言的运用。检查了模型的错误预测,并发现了人类引用行为和来源数据中的系统性错误。提供了新数据集、代码和基于网络的工具给社区。

🎯

关键要点

  • 使用双向长短期记忆网络和环境信息检测需要引用的句子。
  • 构建了一个比以前数据集大数个数量级的新数据集PMOA-CITE。
  • 在标准ACL-ARC数据集上达到了最先进的性能,F1值为0.507。
  • 在新数据集PMOA-CITE上表现出很高的性能,F1值为0.856。
  • 模型能够在不同数据集之间进行迁移学习。
  • 使用可解释的模型揭示促进和抑制引用的特定语言运用。
  • 发现改进预测的关键在于章节和周围句子。
  • 检查模型的错误预测,发现人类引用行为和来源数据中的系统性错误。
  • 提供新数据集、代码和基于网络的工具给社区。
➡️

继续阅读