小红花·文摘

通过在语言模型（LM）激活中使用 JumpReLU SAEs，本文在给定的稀疏度水平上实现了与其他最新进展（如 Gated 和 TopK SAEs）相比更高的重构准确性，并证明了这种改进不会损害解释性。