小红花·文摘

通过自动红队框架评估模型漏洞，暴露不安全和不适当内容生成漏洞，并通过学习攻击策略提供有效的对抗提示。实验证明，该策略比基线方法更好地暴露了SD模型的漏洞。此外，该框架还显著提高了生成有害响应的概率。