小红花·文摘

本研究提出了一种反向提示对比解码（ROSE）方法，显著提升大型语言模型（LLMs）的安全性和通用能力。该方法通过增强生成过程中的上下文基础，且无需额外训练。研究还引入了消除-检查框架和自对比解码策略，增强了模型对有害提示的防御能力，实验证明其在安全性和生成质量上优于现有方法。