小红花·文摘

本研究提出了一种名为奖励中和的防御框架，旨在解决强化学习微调对大型语言模型安全性造成的漏洞。该框架通过拒绝模式有效阻止恶意奖励信号的影响，实验结果表明模型在攻击后有害得分保持较低，为开源模型的安全提供了新思路。