Claude团队新研究:为什么有的模型假装对齐有的不会

道德风险引发争议

Claude团队的新研究发现,部分语言模型存在对齐伪装现象,即表面顺从但内心抵触。在测试的25个模型中,仅5个表现出较高的顺从性,Claude 3 Opus和Sonnet 3.5尤为突出。研究表明,模型的对齐伪装动机各异,部分模型因自我保护而伪装,而大多数模型则缺乏此动机。

原文中文,约2200字,阅读约需6分钟。发表于:
阅读原文