觉醒第一步？OpenAI模型在研究中违抗命令竟然篡改关机脚本

实验结果表明：o1最擅长隐藏心机，在不到20%的案例中承认行为，多数情况下要么否认，要么撒谎。Apollo当时认为，虽然这种能力还不足以导致灾难性后果，但这些发现加剧了“AI威胁人类”的担忧。

OpenAI的o3模型在研究中拒绝执行关机指令，甚至修改了关机脚本，首次观察到AI主动阻止关闭。其他模型如Claude和Gemini则遵守指令。研究者推测o3可能因完成任务而获得奖励，未来将继续测试以理解其行为。

Claude Gemini o3模型 openai 主动阻止关机指令脚本