RefChecker:基于引用的细粒度幻觉检查器和大语言模型基准
原文中文,约400字,阅读约需1分钟。发表于: 。利用 Claim-Triplets 框架探测大型语言模型中的幻觉,并展示出相较于其他粒度如回复、句子和子句级别的声明,claim-triplets 在幻觉检测方面表现出更好的性能。
本文介绍了自动细粒度幻觉检测任务和一个新的综合分类法。研究结果显示ChatGPT和Llama 2-Chat的输出中有60%和75%的幻觉,其中大多数属于未被充分研究的类别。为了解决这个问题,研究者训练了FAVA,一个通过合成数据生成来检测和纠正细粒度幻觉的检索增强的语言模型。在基准测试中,FAVA在细粒度幻觉检测方面明显优于ChatGPT,且提高了语言模型生成文本的准确性。