本文介绍了一种新方法:DecoderLens,用于解释Transformer模型的内部状态。DecoderLens允许解码器跨层交叉注意到编码器层的表示,将不可解释的向量表示映射为可解释的单词或符号序列。该方法应用于问答、逻辑推理、语音识别和机器翻译模型,揭示了在低层或中间层解决的几个特定子任务。
完成下面两步后,将自动完成登录并继续当前操作。