本研究探讨了大型语言模型(LLMs)面临的jailbreak攻击风险,并提出了一种名为安全上下文检索(SCR)的方法,以增强对这些攻击的防御能力。实验结果表明,SCR在抵御已知和新兴的jailbreak策略方面表现优异,为LLMs的安全提供了新思路。
完成下面两步后,将自动完成登录并继续当前操作。