Can Sparse Autoencoders Be Used to Decompose and Interpret Steering Vectors?
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究探讨了稀疏自编码器(SAE)在解释引导向量时的问题,发现其不适用于引导向量的输入分布,导致误导性分解,限制了有效性。
🎯
关键要点
- 本研究探讨了稀疏自编码器(SAE)在解释引导向量时的问题。
- SAE直接应用于引导向量时,会产生误导性的分解。
- SAE不适用于引导向量的输入分布。
- SAE无法处理引导向量在特征方向上的有意义负投影。
- 这些限制了SAE在解释引导向量时的有效性。
➡️