小红花·文摘

清华大学与上海AI实验室的研究表明，通过测试时强化学习（TTRL），模型的数学能力提升了159%。该方法无需数据标注，模型能够自生成训练数据，显著提高了多个数据集的准确率，尤其在AIME 2024竞赛中表现优异。