小红花·文摘

研究分析大型语言模型中的极端标记现象，探讨注意力头在不同输入中的活跃和休眠机制。提出替代训练策略以缓解该现象，并证明预训练模型中类似机制对推理和可解释性有影响。