语言模型中的真值判断：信念方向是上下文敏感的

我们通过对大型语言模型的隐空间进行研究发现，先前的关于模型的 ' 知识 ' 或' 信念 ' 的研究方法可以基于其隐空间中的方向来构建探测器，而我们的实验结果表明这些探测器的预测可能与前面的（相关）句子有条件关联，并且这种信念方向可以影响推理过程中的真相判断和上下文信息的整合。

最近的研究发现，大语言模型（LLM）可以通过对其内部激活进行训练来推断其是否在讲真话。本研究通过高质量的数据集详细研究了LLM对真实性的表示结构，并提出证据表明LLM线性地表示事实陈述的真实性或虚假性。同时，介绍了一种新技术，质量均值推断法，具有更好的推广性和与模型输出相关性。

大语言模型真实性虚假性语言模型质量均值推断法