本研究评估了四种文本与图像一致性指标(CLIPScore、TIFA、VPEval和DSG),结果显示它们未达到理想标准,且对语言和视觉特性的敏感性不足。
本文研究了自动生成摘要与源文件不一致的问题,发现现有的一致性指标存在限制。通过对11个大型语言模型进行实际一致性评估,引入TreatFact数据集,并分析了模型大小、提示、预训练和微调数据的影响。研究发现,开源模型性能较差,但通过增加模型大小、扩展预训练数据和开发精心策划的微调数据,有潜力提升性能。实验结果表明,先前的方法和基于大型语言模型的评估器无法捕捉到临床摘要中的实际不一致性,给评估提出了新的挑战。
完成下面两步后,将自动完成登录并继续当前操作。