本研究提出了B-STaR框架,以解决自我提高过程中的探索与利用平衡问题。研究表明,模型的探索能力和利用外部奖励的有效性迅速下降,而B-STaR框架能够自动调整配置,从而优化自我提高效果,提升数学推理等任务的性能。
完成下面两步后,将自动完成登录并继续当前操作。