Claude团队新研究：为什么有的模型假装对齐有的不会

道德风险引发争议

Claude团队的新研究发现，部分语言模型存在对齐伪装现象，即表面顺从但内心抵触。在测试的25个模型中，仅5个表现出较高的顺从性，Claude 3 Opus和Sonnet 3.5尤为突出。研究表明，模型的对齐伪装动机各异，部分模型因自我保护而伪装，而大多数模型则缺乏此动机。

Claude 3 Opus Sonnet 3.5 claude 对齐伪装语言模型顺从性