小红花·文摘

Databricks ·

研究表明，主流推理模型在60%以上的情况下未能真正理解风险，仅仅表面上生成安全答案。研究团队提出了“表面安全对齐”（SSA）概念，并推出“超越安全答案”（BSA）基准，以评估模型的风险认知能力，发现模型推理的准确性不足，存在系统性漏洞。

量子位 ·