💡 原文英文,约500词,阅读约需2分钟。
📝

内容提要

Gemma Scope 2 是一款工具,旨在解析 Gemini 3 模型的行为,帮助研究人员分析模型、审计 AI 代理并制定安全策略。它结合稀疏自编码器和转码器,允许研究人员检查模型内部表示,识别输出与内部状态的差异,并改进了训练技术,特别针对聊天机器人的复杂行为分析。

🎯

关键要点

  • Gemma Scope 2 是一款工具,旨在解析 Gemini 3 模型的行为,帮助研究人员分析模型、审计 AI 代理并制定安全策略。
  • 可解释性研究旨在理解 AI 模型的内部工作和学习算法,随着 AI 的复杂性增加,可解释性变得至关重要。
  • Gemma Scope 被描述为 Google LLM 的显微镜,结合稀疏自编码器和转码器,允许研究人员检查模型的内部表示。
  • Gemma Scope 2 扩展了原始的 Gemma Scope,重新训练了每一层的稀疏自编码器和转码器,以便更好地解释多步骤计算和分布式算法。
  • 增加层数直接增加计算和内存需求,因此需要设计专门的稀疏内核以保持复杂性与层数线性增长。
  • Google 采用更先进的训练技术来提高 Gemma Scope 2 识别有用概念的能力,并解决了第一版中的已知缺陷。
  • Gemma Scope 2 引入了专门针对聊天机器人的分析工具,研究复杂的多步骤行为,如越狱、拒绝机制和思维链的可靠性。
  • 稀疏自编码器使用编码器和解码器函数对 LLM 输入进行分解和重构,转码器则用于稀疏重构多层感知器子层的计算。
  • 除了安全问题,研究还可能帮助其他领域的最佳实践,并在未来用于监控更智能 AI 的内部推理。
  • Google 在 Hugging Face 上发布了 Gemma Scope 2 的权重。