机器之心 ·

ECCV 2024｜牛津大学&港科提出毫秒级文生图安全检测框架Latent Guard

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

最近的文本到图像生成器面临滥用风险。为此，提出了“潜在保护”方法，通过检测黑名单概念来阻止恶意输入，从而节省计算成本。该框架在多个数据集上验证，表现优异，有效防止不当内容生成。

🎯

🔎

潜在保护方法通过学习潜在空间中的黑名单概念，提供了一种新颖的安全检测机制。这种方法不仅能够识别明确的恶意输入，还能扩展到对抗性攻击，显示出其灵活性和适应性。与传统的基于文本的黑名单相比，潜在保护在应对新型威胁时更具优势。

Latent Guard在处理时间和内存使用上表现出色，资源需求有限。这使得该框架在实际应用中更具可行性，尤其是在资源受限的环境中。用户在选择文本到图像生成器时，应关注其安全机制的计算效率，以确保在保护内容安全的同时不影响生成速度。

Latent Guard在多个数据集上的验证结果显示其优越性，尤其是在未见数据集上的表现超越所有基准。这表明该方法具有良好的泛化能力，能够有效应对不同类型的输入提示。研究者和开发者在实施安全框架时，应重视多样化的测试，以确保其在实际应用中的可靠性。

❓

Latent Guard的主要功能是通过检测黑名单概念来阻止恶意输入，从而提高文本到图像生成的安全性。

潜在保护方法通过在文本编码器上学习潜在空间，检测输入文本嵌入中的有害概念，从而阻止不当内容生成。

Latent Guard在多个数据集上测试时表现优异，能够阻止所有测试提示，并在未见数据集上超越所有基准。

Latent Guard的计算成本低，资源需求有限，处理时间和内存使用都很少。

潜在保护方法通过生成围绕黑名单概念的安全和不安全提示的数据集，并利用预训练的文本编码器提取特征。

Latent Guard相比其他安全措施具有更高的灵活性和准确性，能够有效阻止不当内容生成，而不需要大量数据集进行训练。

🏷️