Gemma Scope:帮助安全社区揭示语言模型的内部运作
原文英文,约1100词,阅读约需4分钟。发表于: 。Announcing a comprehensive, open suite of sparse autoencoders for language model interpretability.
Gemma Scope是一套工具,帮助研究人员了解Gemma 2开放式语言模型的内部运作。它使用稀疏自编码器来解释模型的激活并识别其使用的特征。Gemma Scope包括数百个免费的稀疏自编码器和一个名为Mishax的工具。发布Gemma Scope旨在促进更具野心的可解释性研究,并帮助构建更强大的系统。该工具允许研究人员研究特征在模型中如何演变和相互作用以生成更复杂的特征。