小红花·文摘

本研究探讨了大型语言模型（LLMs）面临的jailbreak攻击风险，并提出了一种名为安全上下文检索（SCR）的方法，以增强对这些攻击的防御能力。实验结果表明，SCR在抵御已知和新兴的jailbreak策略方面表现优异，为LLMs的安全提供了新思路。