本文提出了iGRPO(迭代组相对策略优化),通过自我反馈提升AI的数学推理能力。该方法包括探索与选择、条件化改进两个阶段,显著提升多个基准测试的表现,且无需复杂的外部反馈。iGRPO的理念与人类学习相似,强调超越自我,具有广泛应用潜力。
本研究探讨了在推理任务中有效利用搜索和自我反馈的方法。通过比较真实反馈与自我反馈在数学推理中的应用,提出了针对复杂任务的领域特定方法。实验结果表明,仅依赖自我反馈会导致泛化问题,因此需要真实反馈以确保搜索的有效性。
完成下面两步后,将自动完成登录并继续当前操作。