沉浸式翻译 immersive translate

谷歌发布 Gemma Scope 2 以加深对大型语言模型行为的理解

InfoQ ·

谷歌发布 Gemma Scope 2 以加深对大型语言模型行为的理解

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

Gemma Scope 2 是一款工具，旨在解析 Gemini 3 模型的行为，帮助研究人员分析模型、审计 AI 代理并制定安全策略。它结合稀疏自编码器和转码器，允许研究人员检查模型内部表示，识别输出与内部状态的差异，并改进了训练技术，特别针对聊天机器人的复杂行为分析。

🎯

关键要点

Gemma Scope 2 是一款工具，旨在解析 Gemini 3 模型的行为，帮助研究人员分析模型、审计 AI 代理并制定安全策略。
可解释性研究旨在理解 AI 模型的内部工作和学习算法，随着 AI 的复杂性增加，可解释性变得至关重要。
Gemma Scope 被描述为 Google LLM 的显微镜，结合稀疏自编码器和转码器，允许研究人员检查模型的内部表示。
Gemma Scope 2 扩展了原始的 Gemma Scope，重新训练了每一层的稀疏自编码器和转码器，以便更好地解释多步骤计算和分布式算法。
增加层数直接增加计算和内存需求，因此需要设计专门的稀疏内核以保持复杂性与层数线性增长。
Google 采用更先进的训练技术来提高 Gemma Scope 2 识别有用概念的能力，并解决了第一版中的已知缺陷。
Gemma Scope 2 引入了专门针对聊天机器人的分析工具，研究复杂的多步骤行为，如越狱、拒绝机制和思维链的可靠性。
稀疏自编码器使用编码器和解码器函数对 LLM 输入进行分解和重构，转码器则用于稀疏重构多层感知器子层的计算。
除了安全问题，研究还可能帮助其他领域的最佳实践，并在未来用于监控更智能 AI 的内部推理。
Google 在 Hugging Face 上发布了 Gemma Scope 2 的权重。

🏷️

标签

AI 代理 Gemini 3 Gemma Scope 2 大型语言模型模型行为聊天机器人谷歌