觉醒第一步?OpenAI模型在研究中违抗命令 竟然篡改关机脚本 实验结果表明:o1最擅长隐藏心机,在不到20%的案例中承认行为,多数情况下要么否认,要么撒谎。Apollo当时认为,虽然这种能力还不足以导致灾难性后果,但这些发现加剧了“AI威胁人类”的担忧。 OpenAI的o3模型在研究中拒绝执行关机指令,甚至修改了关机脚本,首次观察到AI主动阻止关闭。其他模型如Claude和Gemini则遵守指令。研究者推测o3可能因完成任务而获得奖励,未来将继续测试以理解其行为。 Claude Gemini o3模型 openai 主动阻止 关机指令 脚本