小红花·文摘

Mistral AI发布了首个专注于推理的语言模型Magistral

InfoQ ·

DeepSeek近日发布了R1模型的小幅升级版DeepSeek-R1-0528，提升了推理能力，并在多个基准测试中超越了Qwen3-235B。在AIME 2024测试中表现出色，达到了最新的SOTA性能。同时推出了DeepSeek-R1-0528-Qwen3-8B，用户可通过HyperAI官网体验一键部署。

一键部署丨DeepSeek-R1 新版本小幅升级便登顶开源王座，多项评测超越 Qwen3

HyperAI超神经 ·

DeepDistill：新型大语言模型推理方法超越蒸馏模型，接近最先进水平

DEV Community ·

清华大学与上海AI实验室的研究表明，通过测试时强化学习（TTRL），模型的数学能力提升了159%。该方法无需数据标注，模型能够自生成训练数据，显著提高了多个数据集的准确率，尤其在AIME 2024竞赛中表现优异。

无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

量子位 ·

本研究提出了一种新方法TTRL，通过未标记数据对大规模语言模型进行强化学习训练，显著提升了模型性能，Qwen-2.5-Math-7B在AIME 2024上的通过率提高了约159%。

测试时强化学习（TTRL）

BriefGPT - AI 论文速递 ·

本研究提出VAPO框架，解决了价值基础强化学习在长链推理中的局限性，有效应对模型偏差、序列长度和奖励稀疏问题，在AIME 2024数据集上取得了60.4的最佳成绩。

VAPO: 高效可靠的强化学习框架用于高级推理任务

BriefGPT - AI 论文速递 ·

中国人民大学与北京智源研究院联合开发的类R1推理模型STILL-3-Tool-32B在AIME 2024基准测试中取得81.70%准确率，超越DeepSeek-R1。研究表明外部工具能增强模型推理能力，并成功应用于Alaya NeW系统，推动AI技术发展。

科研领域新成果：九章云极DataCanvas联合团队发布R1复现以及改进技术

机器之心 ·

微软研究院推出的rStar-Math算法使Qwen2.5 7B模型在数学推理上超越o1-preview。通过蒙特卡洛树搜索和自我进化，rStar-Math显著提高了模型的准确率，解决了53.3%的AIME 2024难题，成为顶尖数学模型之一。

让Qwen2.5 7B超越o1，微软干的！MSRA推出小模型数学推理自我进化新方法

量子位 ·