量子位 ·

AI自己给自己当网管，实现安全“顿悟时刻”，风险率直降9.6%

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

研究团队提出SafeKey框架，显著提升大型推理模型的安全性，降低9.6%的风险率，同时保持核心能力。通过分析“关键句”和“沉睡的安全信号”，优化模型的安全决策，增强其自主性和稳健性。

🎯

🔎

大型推理模型在处理复杂任务时展现出强大能力，但其安全风险也日益突出。传统的监督微调方法在面对新型攻击时效果有限，因此需要新的框架来提升模型的安全性。SafeKey框架的提出正是为了应对这一挑战，确保模型在保持核心能力的同时，增强安全性。

研究发现，模型的“关键句”直接影响回答的安全性，而“沉睡的安全信号”则在生成关键句之前已存在。这表明，模型在理解用户查询时已经具备安全特征，但未能有效利用。SafeKey框架通过放大安全信号和强化自主判断，旨在唤醒这些潜在的安全特征，从而提升整体安全性。

SafeKey框架通过双通路安全头和查询遮蔽建模两大创新设计，强化模型的安全决策能力。双通路安全头放大了安全信号，而查询遮蔽建模则促使模型依赖自身的安全判断。这种设计不仅提升了模型的安全性，还在多个基准测试中维持了其核心能力，显示出良好的实用性。

❓

SafeKey框架显著提升大型推理模型的安全性，降低9.6%的风险率，同时保持核心能力。

“关键句”是模型回答中的第一个句子，决定了回答的安全性，是模型安全“顿悟时刻”的关键。

SafeKey通过双通路安全头和查询遮蔽建模来强化模型的安全性，放大安全信号并促使模型依赖自身判断。

实验表明，SafeKey框架在不同模型上有效提升安全性，同时在数学推理和语言理解等任务上保持或提高了准确率。

大型推理模型在面对越狱攻击时，监督微调的泛化能力有限，容易受到攻击。

SafeKey框架的创新点包括双通路安全头和查询遮蔽建模，这些设计增强了模型的安全决策能力。

🏷️