量子位 ·

无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

清华大学与上海AI实验室的研究表明，通过测试时强化学习（TTRL），模型的数学能力提升了159%。该方法无需数据标注，模型能够自生成训练数据，显著提高了多个数据集的准确率，尤其在AIME 2024竞赛中表现优异。

🎯

关键要点

清华大学与上海AI实验室的研究表明，通过测试时强化学习（TTRL），模型的数学能力提升了159%。
该方法无需数据标注，模型能够自生成训练数据，显著提高了多个数据集的准确率。
在AIME 2024竞赛中，Qwen-2.5-Math-7B模型的成绩直接提高了159%。
测试时强化学习（TTRL）过程包括生成、投票和强化三个步骤。
模型通过生成多样化的候选答案，并采用多数投票机制来估计正确答案。
TTRL在AIME 2024、AMC和MATH-500三个数据集上测试，表现出显著的准确率提升。
TTRL使Qwen2.5-Math-7B模型在三个数据集上的平均性能提高了84.1%。
强化学习具备纠错能力，即使伪标签不完全准确，仍能优化模型表现。

❓

延伸问答

测试时强化学习（TTRL）是什么？

测试时强化学习（TTRL）是一种结合测试时扩展和训练的方法，通过生成多样化的候选答案并采用多数投票机制来优化模型表现。

TTRL如何提高模型的数学能力？

TTRL通过自生成训练数据和多数投票机制，使模型在多个数据集上的准确率显著提升，特别是在AIME 2024竞赛中表现优异。

Qwen-2.5-Math-7B模型在AIME 2024竞赛中的表现如何？

在AIME 2024竞赛中，Qwen-2.5-Math-7B模型的准确率从16.7%提高到43.3%，提升幅度达到159%。

TTRL的三个主要步骤是什么？

TTRL的三个主要步骤是生成候选答案、投票估计正确答案和利用强化学习优化模型策略。

TTRL在不同数据集上的表现如何？

TTRL在AIME 2024、AMC和MATH-500数据集上均表现出显著的准确率提升，平均提高了84.1%。

强化学习在TTRL中有什么作用？

强化学习在TTRL中用于优化模型策略，能够纠正错误，即使伪标签不完全准确，仍能提升模型表现。

🏷️

继续阅读

企业在AI应用中获胜的关键是首先构建数据层
Trinity Industries通过构建强大的数据基础，实现了AI驱动的转型。首席数据官Stephen Ecker指出，数据层是战略核心，解决了数据碎...
Claude Mythos Preview 模型能力解析：大模型攻防实测与企业应对建议
绿盟科技的报告分析了Anthropic的Claude Mythos模型，指出其在0day漏洞挖掘和网络攻击中的高效能，可能增加开源供应链的风险。报告建议企...
Zed AI 白嫖免费模型，搭配 DeepSeek v4，玩转 Agent 编程技巧 - 曦远Code
Zed 编辑器功能灵活，支持多种 AI 模型，用户可通过 ACP 协议配置 agent。虽然 AI 功能有限，但适合日常开发和文档生成，提供免费模型使用，...
将AI令牌使用量减少96%？AWS Strands Agents是如何做到的
AWS开发者倡导者摩根·威利斯讨论了Strands Agents的开源框架，该框架自发布以来已下载超过1400万次。她演示了如何通过意图驱动的工具将API...
在PyCharm中使用词袋模型
本文介绍了词袋模型（BoW）在自然语言处理中的应用，强调其通过记录词汇出现频率将文本转换为数值向量的有效性。BoW适用于文本分类和情感分析等任务。文章还展...
Ubuntu的AI计划让Linux用户寻求“杀开关”
Canonical计划在Ubuntu中添加AI功能，用户可以选择不安装或移除这些功能。部分用户要求提供“杀开关”以禁用AI功能，但Canonical表示不...