研究探讨语言模型中的敏感方向,提出改进的扰动方向基线。通过分析稀疏自编码器的重建误差,发现低L0稀疏特征对模型输出影响更大,而端到端SAE特征影响不明显。这为语言模型的理解和改进提供了新视角。
完成下面两步后,将自动完成登录并继续当前操作。