本研究分析了大语言模型在决策中的不足,如贪婪性和频率偏差。通过自生成思维链进行强化学习微调,显著提升了模型的决策能力和探索性。
该研究通过引入句法先验,提出了一种新的句法平滑方法,解决语言模型预训练中频率偏差和各向异性导致的泛化能力不足问题。此方法改善了稀有英语Token的表现,并降低了各向异性。
完成下面两步后,将自动完成登录并继续当前操作。