本研究评估了13种小型语言模型在越狱攻击下的安全性,发现大多数模型易受攻击且对有害提示脆弱。同时,分析了多种防御方法的有效性,为提升小型语言模型的安全性提供了见解。
完成下面两步后,将自动完成登录并继续当前操作。