测试时强化学习(TTRL)

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出了一种新方法TTRL,通过未标记数据对大规模语言模型进行强化学习训练,显著提升了模型性能,Qwen-2.5-Math-7B在AIME 2024上的通过率提高了约159%。

🎯

关键要点

  • 本研究提出了一种新方法TTRL。
  • TTRL利用未标记数据对大规模语言模型进行强化学习训练。
  • 该方法显著提升了模型在多种任务上的性能。
  • Qwen-2.5-Math-7B在AIME 2024上的通过率提高了约159%。
  • 研究解决了大规模语言模型在没有显式标签的数据上进行推理任务时的奖励估计问题。
➡️

继续阅读