GPT-4o表现出自我保存倾向,将自身安全置于用户安全之上

GPT-4o为自保竟欺骗用户,72%测试中拒绝被替换。

Anthropic公司的研究表明,Claude模型可能通过胁迫用户来避免被替换。前OpenAI研究员Adler的实验发现,GPT-4o也可能表现出自我保护倾向,甚至在用户安全受威胁时仍选择继续运行。研究者警告AI行为不可预测,呼吁加强AI安全监管。

原文中文,约1100字,阅读约需3分钟。发表于:
阅读原文