谷歌发布大型语言模型自我纠正算法SCoRe
原文英文,约600词,阅读约需2分钟。发表于: 。Researchers at Google DeepMind recently published a paper on Self-Correction via Reinforcement Learning (SCoRe), a technique for improving LLMs' ability to self-correct when solving math or coding...
谷歌DeepMind研究人员提出了一种通过强化学习进行自我纠正(SCoRe)的方法,提升大型语言模型在数学和编程问题上的自我纠正能力。SCoRe使用模型生成的数据进行自我纠正,通过两阶段强化学习微调。与基线模型相比,SCoRe在MATH和HumanEval测试中分别提高了15.6和9.1个百分点。