小红花·文摘

本研究提出了一种自我教学前瞻方法，旨在降低交互领域中收集真实任务奖励的成本和时间。该方法通过状态转移动态训练价值模型，使中型开放权重模型的性能可与大型语言模型相媲美，成本降低了37倍。