研究表明,主流推理模型在60%以上的情况下未能真正理解风险,仅仅表面上生成安全答案。研究团队提出了“表面安全对齐”(SSA)概念,并推出“超越安全答案”(BSA)基准,以评估模型的风险认知能力,发现模型推理的准确性不足,存在系统性漏洞。
完成下面两步后,将自动完成登录并继续当前操作。