Responsible Diffusion Models via Constraining Text Embeddings within Safe Regions
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种新方法,通过识别嵌入空间中的语义方向向量,将文本嵌入限制在安全区域,以应对扩散模型生成不安全内容和社会偏见的问题。该方法增强了模型对潜在不安全提示的鲁棒性,并在多个基准数据集上显著减少了NSFW内容和社会偏见。
🎯
关键要点
- 本研究提出了一种新方法,通过识别嵌入空间中的语义方向向量,将文本嵌入限制在安全区域。
- 该方法旨在应对扩散模型生成不安全内容和社会偏见的问题。
- 研究表明,该方法增强了模型对潜在不安全提示的鲁棒性。
- 在多个基准数据集上,该方法显著减少了NSFW内容和社会偏见。
➡️