小红花·文摘

研究探讨语言模型中的敏感方向，提出改进的扰动方向基线。通过分析稀疏自编码器的重建误差，发现低L0稀疏特征对模型输出影响更大，而端到端SAE特征影响不明显。这为语言模型的理解和改进提供了新视角。