小红花·文摘

本研究提出了一种新方法，通过稀疏自编码器引导语言模型在不安全提示下识别并拒绝回答，而无需更新模型权重。这种方法增强了语言模型的安全性，但特征引导可能对性能产生负面影响，需进一步研究。