本研究提出了一种新方法TTRL,通过未标记数据对大规模语言模型进行强化学习训练,显著提升了模型性能,Qwen-2.5-Math-7B在AIME 2024上的通过率提高了约159%。
完成下面两步后,将自动完成登录并继续当前操作。