通过限制文本嵌入在安全区域内实现负责任的扩散模型

本研究针对扩散模型生成不安全内容和社会偏见的担忧，提出了一种新的自发现方法，以识别嵌入空间中的语义方向向量，从而将文本嵌入限制在安全区域。该方法提高了模型对潜在不安全提示的鲁棒性，并在多个基准数据集上展现了显著减少NSFW内容和缓解社会偏见的能力。

本研究提出了一种新方法，通过识别嵌入空间中的语义方向向量，限制扩散模型生成的不安全内容，增强模型对潜在不安全提示的鲁棒性，有效减少NSFW内容和社会偏见。

NSFW 不安全内容扩散模型社会偏见鲁棒性

原文中文，约200字，阅读约需1分钟。发表于：。

分享给好友