小红花·文摘

研究提出“监狱破解解药”方法，通过调整大型语言模型内部状态的稀疏子集来提高安全性，实验表明调整约5%的状态即可有效。其他方法如ReNeLLM框架和SafeDecoding策略也在探索增强模型安全性。