本文介绍了使用大型语言模型(LLM)评估文本摘要中的实际一致性(FC)的研究,通过引入TreatFact数据集填补了该领域的空白。研究发现,通过增加模型大小、扩展预训练数据和开发精心策划的微调数据,有潜力提升开源LLM的性能。然而,目前的方法和基于LLM的评估器都无法捕捉到临床摘要中的实际不一致性,给FC评估提出了新的挑战。
完成下面两步后,将自动完成登录并继续当前操作。