小红花·文摘

本研究探讨大型语言模型中的极端标记现象，分析注意力头在不同输入中的活跃与休眠机制，并提出替代训练策略以缓解此现象。研究表明，预训练模型中存在类似机制，影响推理和可解释性。