通过自适应揭示推理依据的强化学习

通过自适应揭示推理依据的强化学习

Apple Machine Learning Research Apple Machine Learning Research ·

我们提出通过部分专家示范进行强化学习(RL)是一种有效的复杂序列生成框架。引入自适应回溯(AdaBack)动态调整监督长度,帮助模型逐步学习推理链。实验表明,该方法在长序列任务中优于传统的监督微调(SFT)和RL,能够解决以往难以处理的问题。

原文英文,约300词,阅读约需1分钟。
阅读原文