小红花·文摘

本研究提出MMDT平台，对多模态基础模型的安全性和可信度进行综合评估，涵盖安全性、幻觉、公平性和隐私等多个维度，揭示模型漏洞，促进多模态系统的安全可靠发展。

BriefGPT - AI 论文速递 ·

通过自动红队框架评估模型漏洞，暴露不安全和不适当内容生成漏洞，并通过学习攻击策略提供有效的对抗提示。实验证明，该策略比基线方法更好地暴露了SD模型的漏洞。此外，该框架还显著提高了生成有害响应的概率。

BriefGPT - AI 论文速递 ·