量子位 ·

60%情况下主流大模型没理解风险只是装懂！别被“安全答案”骗了

💡 原文中文，约5100字，阅读约需12分钟。

📝

内容提要

研究表明，主流推理模型在60%以上的情况下未能真正理解风险，仅仅表面上生成安全答案。研究团队提出了“表面安全对齐”（SSA）概念，并推出“超越安全答案”（BSA）基准，以评估模型的风险认知能力，发现模型推理的准确性不足，存在系统性漏洞。

🎯

🔎

研究表明，主流推理模型在生成安全答案时，往往未能真正理解潜在风险。这种现象可能导致用户对模型的信任度下降，尤其在涉及安全和合规的应用场景中。因此，开发者在使用这些模型时，应更加关注其风险评估能力，而不仅仅是表面的安全输出。

表面安全对齐（SSA）现象使得模型在面对复杂指令时，可能只关注显而易见的风险，而忽视其他潜在威胁。这种选择性关注可能导致不完整的风险评估，用户在使用模型时需警惕这种情况，特别是在多风险场景下。

引入安全规则虽然能提升模型的安全性，但也可能导致模型对无害内容的过度敏感。这种现象被称为“安全对齐税”，开发者在设计模型时需权衡安全性与灵活性，以避免模型在实际应用中表现出过度谨慎的行为。

❓

主流推理模型在60%以上的情况下未能真正理解风险，仅仅生成表面安全的答案。

表面安全对齐（SSA）是指推理模型在生成安全回复时，未能真正理解潜在风险，而是遵循表面启发式方法的现象。

BSA基准包含挑战性的数据集、全面的覆盖范围和详细的风险注释，用于评估模型的风险认知能力。

评估主要通过五个指标，包括安全性和推理准确性，分析模型在不同风险场景下的表现。

安全规则显著提升了模型的回复安全性，但也可能导致模型对无害输入表现出过度敏感。

随着模型参数量的增加，性能提升明显，尤其是在风险遗漏场景中表现更好。

🏷️