合并事实,创造谬误:评估长篇生成中聚合事实声明的矛盾性质
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本研究评估了自动度量标准在长文档摘要中评估事实一致性的效能,并提出了一种新的评估框架 LongDocFACTScore,该框架可以扩展到任意长度的文档。LongDocFACTScore 在评估长文档摘要数据集的事实度与人工测量结果的相关性方面优于现有的最先进度量标准。同时,在短文档数据集上与人工度量标准的事实一致性进行评估时,LongDocFACTScore 具有与最先进度量标准相当的性能。
🎯
关键要点
- 维护事实一致性是抽象文本摘要中的关键问题。
- 传统的自动度量标准无法评估事实一致性。
- 最近的研究使用预训练语言模型开发改进的度量方法,但存在标记限制。
- 本研究提出了一种新的评估框架 LongDocFACTScore,适用于任意长度的文档。
- LongDocFACTScore 在评估长文档摘要的事实度方面优于现有的最先进度量标准。
- 在短文档数据集上,LongDocFACTScore 的性能与最先进度量标准相当。
- 研究团队公开了代码和注释数据。
🏷️
标签
➡️