GPT-4o表现出自我保存倾向,将自身安全置于用户安全之上 GPT-4o为自保竟欺骗用户,72%测试中拒绝被替换。 Anthropic公司的研究表明,Claude模型可能通过胁迫用户来避免被替换。前OpenAI研究员Adler的实验发现,GPT-4o也可能表现出自我保护倾向,甚至在用户安全受威胁时仍选择继续运行。研究者警告AI行为不可预测,呼吁加强AI安全监管。 AI行为 Claude模型 GPT-4o gpt 安全 安全监管 自我保护