本文提出了一种新框架,将变压器模型中的残差流视为逐层演变的动力系统,研究大型人工智能模型的内部机制,揭示了不同层次间残差流单元的强连续性,为理解现代神经网络提供了基础。
本研究分析大型语言模型在知识冲突时的信息依赖,发现模型能识别冲突信号,区分上下文知识和参数知识,为知识选择提供新方法。
大型语言模型在回答事实性问题方面很成功,但容易产生幻觉。通过推理动态的角度调查幻觉现象,识别查询相同三元知识但产生不同答案的实际问题。利用残差流到词汇空间的映射测量模式,揭示输出令牌概率在模型不同层深度上的动态差异。构建分类器准确检测幻觉预测,揭示产生幻觉的原因和预测时机。
本研究通过研究Transformer模型的残差流,增强其可解释性。发现残差连接机制是在softmax之前的值上进行直接相加,使得具有更大softmax之前值的标记的概率增加。提出了一种分析前一层对上层影响的方法。实验结果和案例研究表明,该研究可以增强基于Transformer的模型的可解释性。
完成下面两步后,将自动完成登录并继续当前操作。