THaMES:一个用于减轻和评估大型语言模型幻觉的端到端工具
原文中文,约400字,阅读约需1分钟。发表于: 。该研究解决了大型语言模型中幻觉问题,即生成不准确内容的挑战,并指出现有方法的不足。论文提出THaMES,一个综合框架,能够自动生成测试集并评估幻觉的减轻效果,通过多种策略优化模型能力,结果表明商用模型在特定情况下更依赖不同的减轻策略,且参数高效微调显著提升模型表现。
本文提出了自动细粒度幻觉检测任务和涵盖六种层次定义的幻觉类型的分类法。通过新的基准测试,发现ChatGPT和Llama 2-Chat的输出中有60%和75%的幻觉,其中大多数属于未被充分研究的类别。FAVA在细粒度幻觉检测方面优于ChatGPT,提高了语言模型生成文本的准确性。