机器之心 ·

他们掰开神经元，终于让大模型9.8大于9.11了：神秘创业公司，开源AI「洗脑」工具

💡 原文中文，约6100字，阅读约需15分钟。

📝

内容提要

大模型在比较9.8和9.11时出错，误将9.11视为日期而非数值。Transluce实验室的Monitor工具通过调整神经元激活，帮助理解模型内部计算，提升AI系统的透明度与可靠性。

🎯

🔎

大模型在处理数字时出现错误，主要是因为它们将9.11误解为日期而非数值。这种错误源于模型的训练数据中包含大量与日期相关的文本，导致模型在判断时联想到其他概念。理解这一点有助于研究者在未来优化模型的训练数据和算法，减少类似错误的发生。

Transluce开发的Monitor工具通过分析神经元激活，帮助用户理解模型的内部计算过程。用户可以通过调整神经元的激活值来修正模型的错误判断，这为AI系统的透明度和可靠性提供了新的解决方案。随着工具的开源，更多研究者可以利用这一技术，推动AI领域的进步。

Transluce作为一个非营利性研究实验室，致力于构建开源、可扩展的AI理解工具。其目标是推动可信赖AI的行业标准，确保AI系统的透明性和可审计性。这一使命不仅有助于提升公众对AI的信任，也为未来的AI发展提供了重要的伦理框架。

❓

大模型将9.11误认为比9.8大，是因为它将9.11视为日期而非数值，导致错误的比较。

Monitor工具可以帮助用户观察和理解语言模型的内部计算，分析模型出错的原因，并调整神经元激活以修正错误。

可以通过将相关神经元的激活强行设置为0，或增强特定神经元的激活来修正模型的错误判断。

Transluce的目标是创建工具以理解AI系统，并推动可信赖AI的行业标准，致力于开源和可扩展的技术。

Monitor工具通过提供神经元激活的详细信息和概率分布，帮助用户分析模型的判断过程和出错原因。

Transluce的创始团队包括多位AI领域的专家，如Jacob Steinhardt和Sarah Schwettmann，他们在各自的研究领域有着丰富的经验。

🏷️