本研究提出了一种名为FastMCTS的新采样策略,旨在解决合成多步推理数据中的低效和不平衡问题。实验结果表明,FastMCTS生成的正确推理路径比拒绝采样方法增加超过30%,并提升了模型性能3.9%。
完成下面两步后,将自动完成登录并继续当前操作。