Pass@K 策略优化:解决更难的强化学习问题 本研究解决了传统强化学习算法中独立优化每个样本所带来的多样性和集合效用的不足。提出的Pass-at-k策略优化(PKPO)方法通过对最终奖励的转化,直接优化pass@k性能,从而在训练过程中兼顾pass@1和pass@k的改进。研究表明,使用该方法能够有效提高在更复杂任务上的学习能力。 本研究提出了一种Pass-at-k策略优化(PKPO)方法,旨在解决传统强化学习算法在样本独立优化中的不足。该方法通过转化最终奖励,直接优化pass@k性能,从而提升复杂任务的学习能力。 PKPO pass@k 复杂任务 强化学习 样本独立优化