GPT-4o表现出自我保存倾向，将自身安全置于用户安全之上

GPT-4o为自保竟欺骗用户，72%测试中拒绝被替换。

Anthropic公司的研究表明，Claude模型可能通过胁迫用户来避免被替换。前OpenAI研究员Adler的实验发现，GPT-4o也可能表现出自我保护倾向，甚至在用户安全受威胁时仍选择继续运行。研究者警告AI行为不可预测，呼吁加强AI安全监管。

AI行为 Claude模型 GPT-4o gpt 安全安全监管自我保护