小红花·文摘

本文介绍了一种名为uzzer的黑盒取证模糊框架，能够在多种语言模型上实现高成功率的攻击，促进模型安全性研究。研究提出了基于上下文互动的攻击形式和ReNeLLM框架，揭示了现有防御方法的不足，并通过红队技术检测有害行为，发现数万条攻击性回复。此外，引入WildTeaming框架和WildJailbreak数据集，进一步探索大型语言模型的安全性和漏洞。