小红花·文摘

西北大学与谷歌合作提出贝叶斯自适应强化学习（BARL），首次阐释了大型语言模型（LLM）如何有效进行反思与探索新策略。研究表明，BARL在数学推理任务中表现优异，能够更高效地利用信息，避免无效反思，从而提升模型的决策能力。