投影假设:稀疏自编码器与概念几何之间的二元性

📝

内容提要

本研究针对稀疏自编码器(SAEs)的局限性,提出一种统一框架,以双层优化问题的形式重塑SAEs,揭示其在概念编码中存在的结构假设,这影响其检测能力。研究表明,SAEs在处理实世界概念时,必须考虑内在维度的异质性和非线性可分离性,进而设计出一种新型SAE,能够发现之前隐藏的概念,从而强调了架构特定选择在模型可解释性中的重要性。

🏷️

标签

➡️

继续阅读