FaithBench:现代大型语言模型的多样化幻觉基准
原文中文,约400字,阅读约需1分钟。发表于: 。本文针对现有大型语言模型生成摘要的幻觉现象缺乏多样性和时效性的问题,引入了FaithBench,一个包含10种现代大型语言模型在8个不同家族中产生的具有挑战性的幻觉的摘要基准,并由人类专家进行了基础真相标注。研究表明,尽管GPT-4o和GPT-3.5-Turbo产生的幻觉最少,但最佳的幻觉检测模型在FaithBench上的准确性接近50%,显示出未来改进的广阔空间。
本文介绍了自动细粒度幻觉检测任务,并创建了六种幻觉类型的分类法。研究发现,ChatGPT和Llama 2-Chat的输出中分别有60%和75%的幻觉。为解决此问题,训练了FAVA模型,通过合成数据来检测和纠正幻觉。FAVA在基准测试中表现优于ChatGPT,文本准确性提高,FActScore提升了5-10%。