Safe RLHF: 安全的强化学习从人类反馈中

利用 Safe Reinforcement Learning from Human Feedback（Safe RLHF）算法，通过训练单独的奖励和成本模型，实现了对大型语言模型（LLMs）在帮助性和无害性上进行人类价值调整，以最大化奖励函数并满足成本约束条件；通过实验证明与现有的值对齐算法相比，Safe RLHF 在减轻有害回应的能力和提高模型性能方面更为优越。

该文介绍了一种利用偏好建模和强化学习方法优化语言模型的技术，能够提高自然语言处理的评估表现。通过迭代在线模式的训练，每周使用新的人类反馈数据更新偏好模型和强化学习策略，有效改进了数据集和模型。同时，研究了强化学习从人类反馈中学习的鲁棒性和重要性，并提供了使用最新相关工作中出现的提示的模型样本。

偏好建模安全强化学习数据集模型样本自然语言处理