Can Sparse Autoencoders Be Used to Decompose and Interpret Steering Vectors?

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究探讨了稀疏自编码器(SAE)在解释引导向量时的问题,发现其不适用于引导向量的输入分布,导致误导性分解,限制了有效性。

🎯

关键要点

  • 本研究探讨了稀疏自编码器(SAE)在解释引导向量时的问题。
  • SAE直接应用于引导向量时,会产生误导性的分解。
  • SAE不适用于引导向量的输入分布。
  • SAE无法处理引导向量在特征方向上的有意义负投影。
  • 这些限制了SAE在解释引导向量时的有效性。
➡️

继续阅读