小红花·文摘

本文介绍了使用大型语言模型（LLM）评估文本摘要的研究，发现开源LLM在评估实际一致性方面仍有待提高。通过增加模型大小、扩展预训练数据和开发微调数据，可以提升开源LLM的性能。现有的方法和基于LLM的评估器无法捕捉到临床摘要中的实际不一致性，给实际一致性评估带来新的挑战。