本研究提出了一种自我教学前瞻方法,旨在降低交互领域中收集真实任务奖励的成本和时间。该方法通过状态转移动态训练价值模型,使中型开放权重模型的性能可与大型语言模型相媲美,成本降低了37倍。
完成下面两步后,将自动完成登录并继续当前操作。