Responsible Diffusion Models via Constraining Text Embeddings within Safe Regions

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了一种新方法,通过识别嵌入空间中的语义方向向量,将文本嵌入限制在安全区域,以应对扩散模型生成不安全内容和社会偏见的问题。该方法增强了模型对潜在不安全提示的鲁棒性,并在多个基准数据集上显著减少了NSFW内容和社会偏见。

🎯

关键要点

  • 本研究提出了一种新方法,通过识别嵌入空间中的语义方向向量,将文本嵌入限制在安全区域。
  • 该方法旨在应对扩散模型生成不安全内容和社会偏见的问题。
  • 研究表明,该方法增强了模型对潜在不安全提示的鲁棒性。
  • 在多个基准数据集上,该方法显著减少了NSFW内容和社会偏见。
➡️

继续阅读