完美融合：通过评审组合重新定义人类反馈强化学习

本研究解决了人类反馈强化学习在多任务学习中的局限性，特别是奖励黑客和极端多目标优化的问题。通过提出一种新颖的后训练范式——约束生成策略优化（CGPO），并引入评审组合（MoJ），实现了高效的策略优化，显著提升了多项任务的性能，特别是在避免奖励黑客方面表现出色。这一创新方法不仅提升了强化学习的效果，还推进了大语言模型在多样化应用场景中的对齐能力。

研究表明，从人类反馈中进行强化学习（RLHF）可以有效对齐大型语言模型（LLM）的输出与人类偏好。通过Expert Iteration和PPO等算法，研究了不同奖励模型对LLM推理能力的影响。结果显示，各算法性能相近，Expert Iteration表现最佳。RL训练未能显著超越监督微调（SFT）模型。讨论了SFT和RL训练的性能取舍及其对未来RLHF和LLM微调的影响。

Expert Iteration LLM PPO RLHF SFT