小红花·文摘

本文介绍了一种新方法：DecoderLens，用于解释Transformer模型的内部状态。DecoderLens允许解码器跨层交叉注意到编码器层的表示，将不可解释的向量表示映射为可解释的单词或符号序列。该方法应用于问答、逻辑推理、语音识别和机器翻译模型，揭示了在低层或中间层解决的几个特定子任务。