通过在语言模型(LM)激活中使用 JumpReLU SAEs,本文在给定的稀疏度水平上实现了与其他最新进展(如 Gated 和 TopK SAEs)相比更高的重构准确性,并证明了这种改进不会损害解释性。
完成下面两步后,将自动完成登录并继续当前操作。