本研究提出了一种反向提示对比解码(ROSE)方法,显著提升大型语言模型(LLMs)的安全性和通用能力。该方法通过增强生成过程中的上下文基础,且无需额外训练。研究还引入了消除-检查框架和自对比解码策略,增强了模型对有害提示的防御能力,实验证明其在安全性和生成质量上优于现有方法。
完成下面两步后,将自动完成登录并继续当前操作。