$Q\sharp$: 可证明的最优分布式强化学习用于大规模语言模型的后训练
📝
内容提要
本研究解决了现有基于策略的方法在大规模语言模型(LLM)后训练中的不足,特别是未能消除预训练遗留的捷径问题。提出的$Q\sharp$是一种基于值的算法,通过最优正则化$Q$函数指导参考策略,理论上为KL正则化的强化学习问题学习最优策略,实验结果显示其在数学推理基准测试中优于先前的基线,并证明了在确定性马尔可夫决策过程中的有效性和收敛性。
➡️