小红花·文摘

本研究提出了“严格偏好采样”（HPS）框架，以提高大型语言模型（LLM）与人类偏好的对齐效率和鲁棒性。HPS通过重视受欢迎的响应并拒绝有害内容，显著降低计算成本，并有效减少生成有害内容的风险。