小红花·文摘

大型语言模型（LLMs）具有良好的推理能力，但其决策过程不透明，导致异常时难以追踪原因。去年，我们推出了Gemma Scope工具包，以帮助研究人员理解Gemma 2的内部机制。

Gemma Scope 2：帮助人工智能安全社区加深对复杂语言模型行为的理解

Google DeepMind Blog ·

Gemma Scope是一套工具，帮助研究人员了解Gemma 2开放式语言模型的内部运作。它使用稀疏自编码器来解释模型的激活并识别其使用的特征。Gemma Scope包括数百个免费的稀疏自编码器和一个名为Mishax的工具。发布Gemma Scope旨在促进更具野心的可解释性研究，并帮助构建更强大的系统。该工具允许研究人员研究特征在模型中如何演变和相互作用以生成更复杂的特征。

Gemma Scope：帮助安全社区揭示语言模型的内部运作

Google DeepMind Blog ·

Gemma Scope：帮助安全社区揭示语言模型的内部机制

Google DeepMind Blog ·