THaMES:一个用于减轻和评估大型语言模型幻觉的端到端工具
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文提出了自动细粒度幻觉检测任务和涵盖六种层次定义的幻觉类型的分类法。通过新的基准测试,发现ChatGPT和Llama 2-Chat的输出中有60%和75%的幻觉,其中大多数属于未被充分研究的类别。FAVA在细粒度幻觉检测方面优于ChatGPT,提高了语言模型生成文本的准确性。
🎯
关键要点
- 提出了自动细粒度幻觉检测任务。
- 建立了涵盖六种层次定义的幻觉类型的分类法。
- 新的基准测试显示ChatGPT和Llama 2-Chat的输出中有60%和75%的幻觉。
- 大多数幻觉属于未被充分研究的类别。
- 训练了FAVA,一个通过合成数据生成来检测和纠正细粒度幻觉的语言模型。
- FAVA在细粒度幻觉检测方面优于ChatGPT。
- FAVA的修改提高了语言模型生成文本的准确性,导致5-10%的FActScore改进。
➡️