ReST-MCTS*: LLM 自训练通过过程奖励引导的树搜索

📝

内容提要

基于强化学习的 ReST-MCTS* 方法结合过程奖励模型与树搜索 MCTS*,获取高质量的推理轨迹用于训练策略和奖励模型,在 LLM 自我训练中取得了更高的准确性和性能。

🏷️

标签

➡️

继续阅读