可验证的生成带有子句级细粒度引用
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
通过使用双向长短期记忆网络和环境信息,可以检测需要引用的句子。构建了一个比以前数据集大数个数量级的新数据集,在标准数据集和新数据集上表现出很高的性能。使用可解释的模型揭示了促进和抑制引用的特定语言的运用。检查了模型的错误预测,并发现了人类引用行为和来源数据中的系统性错误。提供了新数据集、代码和基于网络的工具给社区。
🎯
关键要点
- 使用双向长短期记忆网络和环境信息检测需要引用的句子。
- 构建了一个比以前数据集大数个数量级的新数据集PMOA-CITE。
- 在标准ACL-ARC数据集上达到了最先进的性能,F1值为0.507。
- 在新数据集PMOA-CITE上表现出很高的性能,F1值为0.856。
- 模型能够在不同数据集之间进行迁移学习。
- 使用可解释的模型揭示促进和抑制引用的特定语言运用。
- 发现改进预测的关键在于章节和周围句子。
- 检查模型的错误预测,发现人类引用行为和来源数据中的系统性错误。
- 提供新数据集、代码和基于网络的工具给社区。
➡️