小红花·文摘 - 小红花技术领袖俱乐部

本研究探讨了大语言模型后训练中强化学习的结构假设，指出将其视为马尔可夫决策过程的简化假设存在问题，并发现迭代监督细调方法的性能与基于GRPO的训练相当。

名义上的强化学习？分析大语言模型后训练中的结构假设

BriefGPT - AI 论文速递 ·