SafetyPairs:通过反事实图像生成隔离安全关键图像特征

SafetyPairs:通过反事实图像生成隔离安全关键图像特征

💡 原文英文,约300词,阅读约需1分钟。
📝

内容提要

本文介绍了SafetyPairs框架,生成仅在安全特征上不同的图像对,以区分安全与不安全的图像。通过图像编辑模型进行针对性修改,构建了一个包含3020个图像的安全基准,提升了视觉语言模型的评估能力,并改善了轻量级模型的训练效率。

🎯

关键要点

  • 本文介绍了SafetyPairs框架,用于生成仅在安全特征上不同的图像对。

  • 系统区分安全与不安全图像是一个具有挑战性的问题,细微的变化可能会显著影响图像的安全性。

  • 现有的图像安全数据集粗糙且模糊,仅提供广泛的安全标签,未能隔离驱动这些差异的具体特征。

  • SafetyPairs框架通过生成反事实图像对,改变与安全政策相关的特征,从而翻转图像的安全标签。

  • 利用图像编辑模型,我们对图像进行有针对性的修改,改变安全标签而不影响与安全无关的细节。

  • 使用SafetyPairs构建了一个新的安全基准,作为评估数据的强大来源,突显视觉语言模型在区分细微不同图像方面的弱点。

  • 我们的管道还作为有效的数据增强策略,提高了轻量级模型的训练效率。

  • 我们发布了一个包含3020个SafetyPair图像的基准,涵盖9个安全类别,提供了研究细粒度图像安全差异的系统资源。

➡️

继续阅读