FaithBench:现代大型语言模型的多样化幻觉基准

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了自动细粒度幻觉检测任务,并创建了六种幻觉类型的分类法。研究发现,ChatGPT和Llama 2-Chat的输出中分别有60%和75%的幻觉。为解决此问题,训练了FAVA模型,通过合成数据来检测和纠正幻觉。FAVA在基准测试中表现优于ChatGPT,文本准确性提高,FActScore提升了5-10%。

🎯

关键要点

  • 大语言模型生成事实不准确的陈述,提出自动细粒度幻觉检测任务。

  • 创建了涵盖六种层次定义的幻觉类型的分类法。

  • 分析显示ChatGPT和Llama 2-Chat的输出中分别有60%和75%的幻觉。

  • 大多数幻觉属于未被充分研究的类别。

  • 训练了FAVA模型,通过合成数据检测和纠正细粒度幻觉。

  • FAVA在基准测试中表现优于ChatGPT,文本准确性提高。

  • FAVA的修改导致FActScore提升了5-10%。

➡️

继续阅读