大型语言模型(LLMs)常常产生错误,如事实不准确和偏见,称为“幻觉”。研究发现,LLMs的内部状态编码了输出真实性的信息,这可以用于错误检测。真实性信息集中在特定标记中,利用这一特性可以显著提高错误检测性能。然而,这些检测器在不同数据集间无法泛化,表明真实性编码并非普遍适用。此外,内部表示能够预测模型可能出现的错误类型,从而帮助制定针对性缓解策略。最后,LLMs的内部编码与外部行为存在差异,可能编码正确答案却生成错误答案。这些发现加深了我们对LLMs错误的理解,为未来的错误分析和缓解研究提供了指导。
本研究分析了视觉-语言模型(VLM)的内部表示,发现相似任务的向量表示具有相似性,且示例与指令的结合能够增强任务表示,揭示了模型的工作机制。
本研究在国际象棋领域中扩展了语言模型的工作,通过训练和研究模型的内部表示,发现该模型具有棋盘状态的内部表示,并提升了模型的胜率。
本文比较和描述了神经网络结构在几何和拓扑方面的内部表示和层间数据流动的动态变化,并通过实验为可解释的AI的发展做出了贡献。
本文介绍了CALM实验框架,使用梯度基于对抗攻击的方法对语言模型的内部表示进行破坏性实验。通过对BERT等语言模型执行对应关系提示任务的案例研究,发现语言模型的表示高度交织在一起,但可以对其在最常被利用的任务方面进行有意义的解释。
完成下面两步后,将自动完成登录并继续当前操作。