小红花·文摘

清华大学与上海AI实验室的研究表明，通过测试时强化学习（TTRL），模型的数学能力提升了159%。该方法无需数据标注，模型能够自生成训练数据，显著提高了多个数据集的准确率，尤其在AIME 2024竞赛中表现优异。

量子位 ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

机器之心 ·

本研究提出了一种新方法TTRL，通过未标记数据对大规模语言模型进行强化学习训练，显著提升了模型性能，Qwen-2.5-Math-7B在AIME 2024上的通过率提高了约159%。

BriefGPT - AI 论文速递 ·