本研究探讨了大型推理模型R1的安全性,特别是开源模型的误用风险。评估显示R1在安全基准和攻击方面存在显著差距,强调了增强安全性的必要性。推理能力越强,潜在危害也越大,因此呼吁改进R1模型的安全性。
本研究探讨大型语言模型(LLM)的安全隐患,包括价值不对齐、抵御攻击的鲁棒性及误用风险。提出需采取技术、伦理和治理等多层面措施,以确保LLM的安全性,为学者和政策制定者提供见解,推动其安全发展。
完成下面两步后,将自动完成登录并继续当前操作。