最近的研究发现,通过对大语言模型(LLM)的内部激活进行训练,可以推断其真实性。本研究详细研究了LLM对真实性的表示结构,并提出证据表明LLM线性地表示事实陈述的真实性或虚假性。同时,介绍了一种新技术,质量均值推断法,具有更好的推广性和与模型输出相关性。
研究了自然环境下的是/否问题,建立了名为BoolQ的阅读理解数据集。发现从蕴涵数据进行转移的效果更好,最佳方法是在MultiNLI上训练BERT,准确率为80.4%。
完成下面两步后,将自动完成登录并继续当前操作。