SIFiD:基于 LLM 的摘要事实不一致检测再评估

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

本文介绍了使用大型语言模型(LLM)评估文本摘要的研究,发现开源LLM在评估实际一致性方面仍有待提高。通过增加模型大小、扩展预训练数据和开发微调数据,可以提升开源LLM的性能。现有的方法和基于LLM的评估器无法捕捉到临床摘要中的实际不一致性,给实际一致性评估带来新的挑战。

🎯

关键要点

  • 自动产生的摘要与源文件的实际不一致可能导致错误信息或存在风险。
  • 现有的实际一致性指标受性能、效率和可解释性的限制。
  • 大型语言模型在文本评估方面表现出显著潜力,但在总结中评估实际一致性的效果尚未充分探索。
  • 引入TreatFact数据集填补了评估空白,该数据集包含由领域专家进行的实际一致性注释。
  • 对11个LLM进行了实际一致性评估,分析了模型大小、提示、预训练和微调数据的影响。
  • 尽管专有模型在任务上占主导地位,但开源LLM仍然落后。
  • 通过增加模型大小、扩展预训练数据和开发微调数据,有潜力提升开源LLM的性能。
  • 实验表明,现有方法和基于LLM的评估器无法捕捉到临床摘要中的实际不一致性,给实际一致性评估带来新的挑战。
➡️

继续阅读