本研究提出了一种新方法,通过识别嵌入空间中的语义方向向量,将文本嵌入限制在安全区域,以应对扩散模型生成不安全内容和社会偏见的问题。该方法增强了模型对潜在不安全提示的鲁棒性,并在多个基准数据集上显著减少了NSFW内容和社会偏见。
本研究提出了一种基于物理启发的神经网络框架,解决了手动设计控制安全函数的难题。新型神经CBF适用于高维系统,用户可定义安全区域,并通过案例研究验证了其有效性。
完成下面两步后,将自动完成登录并继续当前操作。