本文介绍了一种名为uzzer的黑盒取证模糊框架,能够在多种语言模型上实现高成功率的攻击,促进模型安全性研究。研究提出了基于上下文互动的攻击形式和ReNeLLM框架,揭示了现有防御方法的不足,并通过红队技术检测有害行为,发现数万条攻击性回复。此外,引入WildTeaming框架和WildJailbreak数据集,进一步探索大型语言模型的安全性和漏洞。
完成下面两步后,将自动完成登录并继续当前操作。