💡
原文中文,约1600字,阅读约需4分钟。
📝
内容提要
最近的文本到图像生成器面临滥用风险。为此,提出了“潜在保护”方法,通过检测黑名单概念来阻止恶意输入,从而节省计算成本。该框架在多个数据集上验证,表现优异,有效防止不当内容生成。
🎯
关键要点
-
文本到图像生成器面临滥用风险,需采取安全措施。
-
提出了潜在保护方法,通过检测黑名单概念阻止恶意输入。
-
潜在保护方法在多个数据集上验证,表现优异,有效防止不当内容生成。
-
方法包括生成安全和不安全提示的数据集,利用预训练的文本编码器提取特征。
-
通过对比损失训练嵌入映射层,拉近不安全提示和概念的嵌入。
-
Latent Guard在多个基准模型中表现优异,能够阻止所有测试提示。
-
在未见数据集上测试时,Latent Guard超越所有基准,表现稳健。
-
计算成本低,资源需求有限,处理时间和内存使用都很少。
-
特征空间分析显示安全和不安全区域的自然分布。
➡️