FENICE: 基于自然语言推理和主张提取的摘要真实性评估
原文中文,约500字,阅读约需1分钟。发表于: 。最近在文本摘要方面的最新进展,尤其是随着大型语言模型(LLM)的出现,其表现出色。然而,存在一个明显的挑战,即大量自动生成的摘要存在事实不一致的问题,如幻觉。针对这个问题,出现了各种检验摘要一致性的方法。然而,这些新引入的度量指标都存在一些限制,包括解释性的缺乏、关注短文档摘要(例如新闻文章)以及计算上的不便,尤其是基于 LLM...
研究人员提出了一种名为FENICE的基于自然语言推理和主张提取的事实性评估摘要度量方法,通过对齐源文件中的信息和从摘要中提取的一组原子事实来评估摘要的一致性。该方法设立了一个新的标杆,并通过人工注释扩展到了更具挑战性的环境中。