小红花·文摘

研究团队提出SafeKey框架，显著提升大型推理模型的安全性，降低9.6%的风险率，同时保持核心能力。通过分析“关键句”和“沉睡的安全信号”，优化模型的安全决策，增强其自主性和稳健性。