本文提出了一种迭代价值函数优化框架,旨在解决基于人类反馈的强化学习在语言模型输出中的高计算成本和不稳定性问题。该方法通过蒙特卡洛价值估计和策略优化,在文本摘要和多轮对话等任务中显著提高了效果并降低了计算成本。
完成下面两步后,将自动完成登录并继续当前操作。