小红花·文摘

本研究针对人类反馈强化学习中的过度优化问题，提出了P3O和PRPO算法。通过引入悲观目标，实验证明其在文档摘要和实用助手任务中表现优异，展现出对过度优化的韧性。