小红花·文摘

本文研究大型语言模型（LLMs）生成的幻觉现象，即逻辑连贯但事实不正确的回复。提出了新框架PRISM，通过提示引导LLMs内部状态的结构变化，以提高文本真实性的检测能力。实验结果表明，该框架增强了幻觉检测方法的跨领域泛化能力。

Prompt-Guided Internal States for Hallucination Detection in Large Language Models

BriefGPT - AI 论文速递 ·

本文介绍了一种新方法FActScore，用于评估生成文本的真实性。该方法通过将文本分解为原子事实，并计算可靠来源支持的事实比例来进行评估。同时，研究提出了LongDocFACTScore框架，能够有效评估长文档的事实一致性，且在与人工测量对比中表现优于现有标准。此外，研究还指出大型语言模型在生成文本时存在的事实准确性问题，并提出D-FActScore以改善评估效果。

VERISCORE：评估长文生成的可验证主张的真实性

BriefGPT - AI 论文速递 ·