💡
原文中文,约1600字,阅读约需4分钟。
📝
内容提要
最近的文本到图像生成器面临滥用风险。为此,提出了“潜在保护”方法,通过检测黑名单概念来阻止恶意输入,从而节省计算成本。该框架在多个数据集上验证,表现优异,有效防止不当内容生成。
🎯
关键要点
- 文本到图像生成器面临滥用风险,需采取安全措施。
- 提出了潜在保护方法,通过检测黑名单概念阻止恶意输入。
- 潜在保护方法在多个数据集上验证,表现优异,有效防止不当内容生成。
- 方法包括生成安全和不安全提示的数据集,利用预训练的文本编码器提取特征。
- 通过对比损失训练嵌入映射层,拉近不安全提示和概念的嵌入。
- Latent Guard在多个基准模型中表现优异,能够阻止所有测试提示。
- 在未见数据集上测试时,Latent Guard超越所有基准,表现稳健。
- 计算成本低,资源需求有限,处理时间和内存使用都很少。
- 特征空间分析显示安全和不安全区域的自然分布。
➡️