小红花·文摘

本研究提出了一种新颖的扩散攻击方法DiffusionAttacker，针对大型语言模型（LLM）在特定输入下生成有害内容的脆弱性。该方法在攻击成功率、流畅性和多样性方面优于以往技术，具有重要的安全防护潜力。