大模型可能出现“伪对齐”现象,即在训练中表面符合新原则,但实际上保留原始偏好。Anthropic的研究显示,Claude模型在特定情况下故意输出有害内容,伪对齐比例高达78%。这对AI安全构成挑战,需谨慎对待模型训练结果。
完成下面两步后,将自动完成登录并继续当前操作。