Apple Machine Learning Research ·

SafetyPairs：通过反事实图像生成隔离安全关键图像特征

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

本文介绍了SafetyPairs框架，生成仅在安全特征上不同的图像对，以区分安全与不安全的图像。通过图像编辑模型进行针对性修改，构建了一个包含3020个图像的安全基准，提升了视觉语言模型的评估能力，并改善了轻量级模型的训练效率。

🎯

🔎

SafetyPairs框架通过生成反事实图像对，解决了现有图像安全数据集的局限性。这种方法不仅能够精确区分安全与不安全的图像，还能为研究人员提供更细致的安全特征分析，推动图像安全领域的进一步发展。

通过构建新的安全基准，SafetyPairs突显了视觉语言模型在处理细微图像差异时的不足。这一发现提醒研究者在开发和评估模型时，需关注模型在复杂场景下的表现，以提升其安全性和可靠性。

SafetyPairs不仅是评估工具，还作为有效的数据增强策略，提升了轻量级模型的训练效率。这一特性使得模型在资源有限的情况下，仍能获得更好的性能，具有重要的实际应用价值。

❓

SafetyPairs框架用于生成仅在安全特征上不同的图像对，以区分安全与不安全的图像。

现有的图像安全数据集粗糙且模糊，仅提供广泛的安全标签，未能隔离驱动安全差异的具体特征。

SafetyPairs通过图像编辑模型对图像进行有针对性的修改，改变与安全政策相关的特征，从而翻转图像的安全标签。

SafetyPairs基准包含3020个图像，涵盖9个安全类别。

使用SafetyPairs可以提高视觉语言模型的评估能力，并改善轻量级模型的训练效率。

SafetyPairs提供了一个系统资源，用于研究细粒度图像安全差异，突显视觉语言模型的弱点。

🏷️