本文研究大型语言模型(LLMs)生成的幻觉现象,即逻辑连贯但事实不正确的回复。提出了新框架PRISM,通过提示引导LLMs内部状态的结构变化,以提高文本真实性的检测能力。实验结果表明,该框架增强了幻觉检测方法的跨领域泛化能力。
本文介绍了一种新方法FActScore,用于评估生成文本的真实性。该方法通过将文本分解为原子事实,并计算可靠来源支持的事实比例来进行评估。同时,研究提出了LongDocFACTScore框架,能够有效评估长文档的事实一致性,且在与人工测量对比中表现优于现有标准。此外,研究还指出大型语言模型在生成文本时存在的事实准确性问题,并提出D-FActScore以改善评估效果。
完成下面两步后,将自动完成登录并继续当前操作。