本研究提出了一种新颖的扩散攻击方法DiffusionAttacker,针对大型语言模型(LLM)在特定输入下生成有害内容的脆弱性。该方法在攻击成功率、流畅性和多样性方面优于以往技术,具有重要的安全防护潜力。
完成下面两步后,将自动完成登录并继续当前操作。