小红花·文摘

本文提出了自动细粒度幻觉检测任务和涵盖六种层次定义的幻觉类型的分类法。通过新的基准测试，发现ChatGPT和Llama 2-Chat的输出中有60%和75%的幻觉，其中大多数属于未被充分研究的类别。FAVA在细粒度幻觉检测方面优于ChatGPT，提高了语言模型生成文本的准确性。

THaMES：一个用于减轻和评估大型语言模型幻觉的端到端工具

BriefGPT - AI 论文速递 ·

本文提出了自动细粒度幻觉检测任务和综合分类法。通过新的基准测试，研究结果显示ChatGPT和Llama 2-Chat的输出中有60%和75%的幻觉。研究者训练了FAVA来检测和纠正细粒度幻觉，通过合成数据生成。FAVA在基准测试中明显优于ChatGPT，提高了语言模型生成文本的准确性。

小型代理也能出色！强化小型语言模型作为幻觉检测器

BriefGPT - AI 论文速递 ·

本文介绍了自动细粒度幻觉检测任务和一个新的综合分类法。研究结果显示ChatGPT和Llama 2-Chat的输出中有60%和75%的幻觉，其中大多数属于未被充分研究的类别。为了解决这个问题，研究者训练了FAVA，一个通过合成数据生成来检测和纠正细粒度幻觉的检索增强的语言模型。在基准测试中，FAVA在细粒度幻觉检测方面明显优于ChatGPT，且提高了语言模型生成文本的准确性。

RefChecker：基于引用的细粒度幻觉检查器和大语言模型基准

BriefGPT - AI 论文速递 ·

本文提出了自动细粒度幻觉检测任务和综合分类法。通过新的基准测试，研究结果显示ChatGPT和Llama 2-Chat的输出中有60%和75%的幻觉。研究者训练了FAVA来检测和纠正细粒度幻觉，FAVA在细粒度幻觉检测方面明显优于ChatGPT。FAVA的修改还提高了语言模型生成文本的准确性，导致了5-10%的FActScore改进。

解决大型语言模型中的主题粒度和虚构问题用于主题建模

BriefGPT - AI 论文速递 ·

本文提出了自动细粒度幻觉检测任务和综合分类法。研究结果显示ChatGPT和Llama 2-Chat的输出中有60%和75%的幻觉。研究者通过训练FAVA解决了这个问题，FAVA在细粒度幻觉检测方面明显优于ChatGPT，并改进了语言模型生成文本的准确性。

通过精细的人工智能反馈检测和缓解大型视觉语言模型中的幻觉

BriefGPT - AI 论文速递 ·