本文介绍了使用大型语言模型(LLM)评估文本摘要的研究,发现开源LLM在评估实际一致性方面仍有待提高。通过增加模型大小、扩展预训练数据和开发微调数据,可以提升开源LLM的性能。现有的方法和基于LLM的评估器无法捕捉到临床摘要中的实际不一致性,给实际一致性评估带来新的挑战。
完成下面两步后,将自动完成登录并继续当前操作。