Exploring Sensitive Directions in GPT-2: Comparative Analysis of Improved Baselines and SAE
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
研究探讨语言模型中的敏感方向,提出改进的扰动方向基线。通过分析稀疏自编码器的重建误差,发现低L0稀疏特征对模型输出影响更大,而端到端SAE特征影响不明显。这为语言模型的理解和改进提供了新视角。
🎯
关键要点
-
本研究解决了语言模型中的敏感方向问题。
-
提出了一种改进的扰动方向基线。
-
通过分析稀疏自编码器的重建误差的KL散度,发现较低的L0稀疏特征方向对模型输出的影响更大。
-
端到端的SAE特征对模型输出的影响并不明显。
-
此发现为语言模型的理解和改进提供了新视角。
➡️