FaithBench:现代大型语言模型的多样化幻觉基准
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了自动细粒度幻觉检测任务,并创建了六种幻觉类型的分类法。研究发现,ChatGPT和Llama 2-Chat的输出中分别有60%和75%的幻觉。为解决此问题,训练了FAVA模型,通过合成数据来检测和纠正幻觉。FAVA在基准测试中表现优于ChatGPT,文本准确性提高,FActScore提升了5-10%。
🎯
关键要点
-
大语言模型生成事实不准确的陈述,提出自动细粒度幻觉检测任务。
-
创建了涵盖六种层次定义的幻觉类型的分类法。
-
分析显示ChatGPT和Llama 2-Chat的输出中分别有60%和75%的幻觉。
-
大多数幻觉属于未被充分研究的类别。
-
训练了FAVA模型,通过合成数据检测和纠正细粒度幻觉。
-
FAVA在基准测试中表现优于ChatGPT,文本准确性提高。
-
FAVA的修改导致FActScore提升了5-10%。
➡️