HyperAI超神经 ·

论文周报 |微软MAI-Thinking探索纯RL自我进化，AIME准确率达97%；无需架构修改，VLM³凭纯文本坐标实现3D任务泛化...速览一周AI前沿论文

💡 原文中文，约4900字，阅读约需12分钟。

📝

内容提要

微软 AI 团队提出了「爬山机器」框架，并训练了参数达到 1T 的 MoE 模型 MAI-Thinking-1。该模型通过自适应熵控制的强化学习，在无第三方数据的情况下实现了长期稳定的性能增长，并在多个基准测试中取得领先水平。

🎯

🔎

微软的 MAI-Thinking-1 模型通过自适应熵控制的强化学习实现了自我进化，展现出在没有第三方数据的情况下，依然能够持续提升性能。这一方法为未来的 AI 模型开发提供了新的思路，尤其是在数据获取受限的情况下，如何通过系统优化实现性能突破。

MAI-Thinking-1 在 AIME 2025 和 SWE-Bench Pro 等基准测试中表现优异，达到了97%的准确率。这表明基准测试不仅是评估模型性能的标准，也是推动技术进步的重要动力。研究者应关注如何设计更具挑战性的基准，以推动 AI 模型的进一步发展。

MAI-Thinking-1 的预训练完全基于纯净数据，未使用任何第三方蒸馏数据。这一策略减少了对外部数据的依赖，可能提高了模型的泛化能力和稳定性。未来的研究可以探索如何在不同领域应用这一方法，以实现更广泛的适用性。

❓

MAI-Thinking-1模型具有1T总参数和35B激活参数，采用自适应熵控制的强化学习，且在预训练阶段未使用任何第三方数据。

爬山机器框架旨在实现快速且持续的性能提升，将模型开发视为系统级优化问题。

MAI-Thinking-1在AIME 2025和SWE-Bench Pro等基准测试中达到了97.0%和52.8%的领先水平。

MAI-Thinking-1在强化学习阶段采用了带有自适应熵控制的GRPO算法和自蒸馏机制。

该模型的预训练阶段完全基于纯净数据，未使用任何第三方蒸馏数据。

微软AI团队采用了自适应熵控制、GRPO算法和自蒸馏机制等创新方法来提升模型性能。

🏷️