本研究评估了自动度量标准在长文档摘要中评估事实一致性的效能,并提出了一种新的评估框架 LongDocFACTScore,该框架可以扩展到任意长度的文档。LongDocFACTScore 在评估长文档摘要数据集的事实度与人工测量结果的相关性方面优于现有的最先进度量标准。同时,在短文档数据集上与人工度量标准的事实一致性进行评估时,LongDocFACTScore 具有与最先进度量标准相当的性能。
完成下面两步后,将自动完成登录并继续当前操作。