小红花·文摘

本研究提出了Pass@K策略优化(PKPO)方法，解决了传统强化学习算法在样本独立优化中多样性不足的问题。该方法通过优化pass@k性能，提升了复杂任务中的学习能力。