本研究提出MMDT平台,对多模态基础模型的安全性和可信度进行综合评估,涵盖安全性、幻觉、公平性和隐私等多个维度,揭示模型漏洞,促进多模态系统的安全可靠发展。
通过自动红队框架评估模型漏洞,暴露不安全和不适当内容生成漏洞,并通过学习攻击策略提供有效的对抗提示。实验证明,该策略比基线方法更好地暴露了SD模型的漏洞。此外,该框架还显著提高了生成有害响应的概率。
完成下面两步后,将自动完成登录并继续当前操作。