科学摘要评估的反思:在面向因素的基准上建立可解释指标
原文中文,约500字,阅读约需1分钟。发表于: 。本研究分析和评估了预训练的大型语言模型在科学文献摘要中的应用,并介绍了 Facet-aware Metric 评估方法以及 Facet-based 科学摘要数据集的构建。研究表明,Facet-aware Metric 提供了一种更加合理的科学摘要评估方法,而在科学领域,经过精细调整的较小模型可以与大型语言模型竞争,但大型语言模型在学习科学领域中的上下文信息方面存在局限性,需要进一步改进。
本文介绍了使用大型语言模型(LLM)评估文本摘要中的实际一致性(FC)的研究,通过引入TreatFact数据集填补了该领域的空白。研究发现,通过增加模型大小、扩展预训练数据和开发精心策划的微调数据,有潜力提升开源LLM的性能。然而,目前的方法和基于LLM的评估器都无法捕捉到临床摘要中的实际不一致性,给FC评估提出了新的挑战。