小红花·文摘

本研究提出了B-STaR框架，以解决自我提高过程中的探索与利用平衡问题。研究表明，模型的探索能力和利用外部奖励的有效性迅速下降，而B-STaR框架能够自动调整配置，从而优化自我提高效果，提升数学推理等任务的性能。