科学摘要评估的反思:在面向因素的基准上建立可解释指标

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

本文介绍了使用大型语言模型(LLM)评估文本摘要中的实际一致性(FC)的研究,通过引入TreatFact数据集填补了该领域的空白。研究发现,通过增加模型大小、扩展预训练数据和开发精心策划的微调数据,有潜力提升开源LLM的性能。然而,目前的方法和基于LLM的评估器都无法捕捉到临床摘要中的实际不一致性,给FC评估提出了新的挑战。

🎯

关键要点

  • 自动产生的摘要与源文件的实际不一致可能导致错误信息或存在风险。

  • 现有的实际一致性(FC)指标受性能、效率和可解释性的限制。

  • 大型语言模型(LLM)在文本评估方面表现出了显著的潜力,但其在总结中评估 FC 的效果尚未充分探索。

  • 引入 TreatFact 数据集来填补 LLM 生成的临床文本摘要的 FC 注释空白。

  • 对 11 个 LLM 进行了 FC 评估,分析了模型大小、提示、预训练和微调数据的影响。

  • 尽管专有模型在任务上占主导地位,但开源 LLM 仍然落后。

  • 通过增加模型大小、扩展预训练数据和开发精心策划的微调数据,有潜力提升开源 LLM 的性能。

  • TreatFact 上的实验表明,现有方法和基于 LLM 的评估器无法捕捉临床摘要中的实际不一致性,给 FC 评估提出了新的挑战。

➡️

继续阅读