Can Sparse Autoencoders Be Used to Decompose and Interpret Steering Vectors?
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究探讨了稀疏自编码器(SAE)在解释引导向量时的问题,发现其不适用于引导向量的输入分布,导致误导性分解,限制了有效性。
🎯
关键要点
-
本研究探讨了稀疏自编码器(SAE)在解释引导向量时的问题。
-
SAE直接应用于引导向量时,会产生误导性的分解。
-
SAE不适用于引导向量的输入分布。
-
SAE无法处理引导向量在特征方向上的有意义负投影。
-
这些限制了SAE在解释引导向量时的有效性。
🏷️