小红花·文摘 - 小红花技术领袖俱乐部

本研究分析了大语言模型在决策中的不足，如贪婪性和频率偏差。通过自生成思维链进行强化学习微调，显著提升了模型的决策能力和探索性。

Large Language Models as Greedy Agents: The Impact of RL Fine-Tuning on Decision-Making Ability

BriefGPT - AI 论文速递 ·

该研究通过引入句法先验，提出了一种新的句法平滑方法，解决语言模型预训练中频率偏差和各向异性导致的泛化能力不足问题。此方法改善了稀有英语Token的表现，并降低了各向异性。

Mitigating Frequency Bias and Anisotropy in Language Model Pre-training through Syntactic Smoothing

BriefGPT - AI 论文速递 ·