Beyond Input Activation: Identifying Influential Latent Variables through Gradient Sparse Autoencoders
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种新方法Gradient Sparse Autoencoder(GradSAE),通过结合输出梯度信息,识别对模型输出影响显著的潜变量,验证了激活潜变量对模型结果贡献不均的假设。
🎯
关键要点
- 本研究提出了一种新方法Gradient Sparse Autoencoder(GradSAE)。
- GradSAE结合输出梯度信息,识别对模型输出影响显著的潜变量。
- 研究验证了激活潜变量对模型结果贡献不均的假设。
- 传统稀疏自编码器(SAEs)仅依赖输入激活,忽视潜变量与模型输出之间的因果关系。
➡️