FABLES:评估长篇书籍摘要的忠实性与内容选择
原文中文,约500字,阅读约需1分钟。发表于: 。通过对虚构书籍的长篇小说生成概述的大规模人类评估,本论文揭示了长篇大语境语言模型在生成摘要时的忠实度和内容选择方面的问题,并且提出了检测生成的摘要中不忠实内容的重要性,同时也探讨了在书籍概述中与关键故事元素相关的遗漏错误以及朝末尾发生事件的系统过度强调。
本文介绍了使用大型语言模型(LLM)评估文本摘要中的实际一致性(FC)的研究。通过引入TreatFact数据集,作者对11个LLM进行了FC评估,并发现通过增加模型大小、扩展预训练数据和开发精心策划的微调数据,有潜力提升开源LLM的性能。然而,现有的方法和基于LLM的评估器都无法捕捉到临床摘要中的实际不一致性,给FC评估提出了新的挑战。