小红花·文摘

本研究提出了一种新方法Gradient Sparse Autoencoder（GradSAE），通过结合输出梯度信息，识别对模型输出影响显著的潜变量，验证了激活潜变量对模型结果贡献不均的假设。