通过限制文本嵌入在安全区域内实现负责任的扩散模型 本研究针对扩散模型生成不安全内容和社会偏见的担忧,提出了一种新的自发现方法,以识别嵌入空间中的语义方向向量,从而将文本嵌入限制在安全区域。该方法提高了模型对潜在不安全提示的鲁棒性,并在多个基准数据集上展现了显著减少NSFW内容和缓解社会偏见的能力。 本研究提出了一种新方法,通过识别嵌入空间中的语义方向向量,限制扩散模型生成的不安全内容,增强模型对潜在不安全提示的鲁棒性,有效减少NSFW内容和社会偏见。 NSFW 不安全内容 扩散模型 社会偏见 鲁棒性