研究提出“监狱破解解药”方法,通过调整大型语言模型内部状态的稀疏子集来提高安全性,实验表明调整约5%的状态即可有效。其他方法如ReNeLLM框架和SafeDecoding策略也在探索增强模型安全性。
完成下面两步后,将自动完成登录并继续当前操作。