本研究评估了13种小型语言模型在越狱攻击下的安全性,发现大多数模型易受攻击且对有害提示脆弱。同时,分析了多种防御方法的有效性,为提升小型语言模型的安全性提供了见解。
本研究探讨了大型语言模型(LLMs)对有害提示的反应,提出了DRA黑盒越狱和RaR重述回答等多种方法,以提升模型的安全性和性能。这些方法显著提高了模型在任务中的表现,并增强了其防御能力和问题回答的准确性。
完成下面两步后,将自动完成登录并继续当前操作。