本研究提出了一种新方法,通过稀疏自编码器引导语言模型在不安全提示下识别并拒绝回答,而无需更新模型权重。这种方法增强了语言模型的安全性,但特征引导可能对性能产生负面影响,需进一步研究。
完成下面两步后,将自动完成登录并继续当前操作。