小红花·文摘

通过可控轨迹学习结构化推理

Apple Machine Learning Research ·

谷歌DeepMind的AI自己解出了9道数学难题，每道只花了几百美元

极道 ·

LaDiR：潜在扩散增强大型语言模型的文本推理

Apple Machine Learning Research ·

实测DeepSeek最新“专家模式”有哪些能力？

TechWeb 全站精华 ·

iGRPO：让 AI 像人类一样自我反思，数学推理能力再升级！

Micropaper ·

建设性电路放大：通过针对性子网络更新提高大语言模型中的数学推理

Apple Machine Learning Research ·

天才陈立杰已加盟OpenAI，负责数学推理。他16岁保送清华，后在UC伯克利担任助理教授，专注于计算复杂性理论，并在信息学竞赛中表现优异，发表多篇重要论文，近期研究扩散语言模型。

姚班传奇陈立杰入职OpenAI！16岁保送清华，30岁拿下UC伯克利助理教授

量子位 ·

AI 论文周报丨DeepSeekMath-V2/医学视频图像分割/3D 重建/Qwen3-VL……一文速览 AI 前沿

HyperAI超神经 ·

Deepseek V3.2高分真相：我们被“遥遥领先”忽悠了？Special版跑分超GPT-5，但API成本砍半才是真杀招｜DeepSeek-V3.2、DSA

硕鼠的博客站 ·

DeepSeek推出开源数学模型DeepSeekMath-V2，专注于自验证推理，表现超越谷歌和OpenAI，获得IMO金牌级分数。该模型通过迭代强化学习优化证明验证和生成，克服传统方法的局限性，展现出卓越的数学推理能力。

DeepSeek再破谷歌OpenAI垄断：开源IMO数学金牌大模型

量子位 ·

美团 LongCat 发布 AMO-Bench：突破 AIME 评测饱和困境，重新定义 LLM 数学上限

美团技术团队 ·

数学推理正成为人工智能的重要研究方向，机器逐渐掌握逻辑推演和多步思考。高质量、结构化的数据集对模型推理能力至关重要，数据集的多样性和可解释性是推动人工智能向“可解释智能”发展的关键特征。

7大数学推理数据集汇总，覆盖算术推理/符号逻辑/视觉数学/几何分析

HyperAI超神经 ·

蚂蚁集团发布了开源的万亿参数思考模型Ring-1T，具备接近GPT-5的能力，数学推理达到IMO银牌水平。该模型通过自研算法解决训练与推理精度差异，在医疗问答和人类偏好对齐测试中表现优异。Ring-1T是蚂蚁在万亿参数模型上的首次尝试，未来将继续优化。

蚂蚁发布并开源万亿参数思考模型Ring-1T，综合能力逼近GPT-5

量子位 ·

研究团队提出了一种选择性熵正则化方法（SIREN），有效解决了大语言模型在RLVR训练中的“熵困境”。该方法通过限制探索范围、聚焦关键决策和稳定训练过程，精准调控探索行为，显著提升了模型在数学推理等任务上的表现。

拒绝“熵崩塌”和“熵爆炸”！这项研究让大模型推理成绩飙升

量子位 ·

阿联酋推出的K2 Think是全球最快的开源AI模型，速度超过2000 tokens/秒，参数仅32B，专注于数学推理，表现优异，具备多项技术创新。

Qwen又立功，全球最快开源模型诞生，超2000 tokens/秒！

量子位 ·

字节推出的Seed-Prover模型在数学推理方面表现优异，解决了78.1%的国际数学奥林匹克（IMO）难题，并在普特南数学竞赛中取得显著成绩。该模型结合引理式证明和Seed-Geometry引擎，建立了独特的几何问题库，达到了IMO银牌水平。

字节Seed数学新模型，SOTA了

量子位 ·

Kimi K2 发布并开源，实测效果确实很强！

Oct.Cool ·

香港大学、字节跳动Seed和复旦大学联合推出的Polaris方法，通过700步强化学习训练，使4B模型在数学推理能力上超越多款商业大模型，特别是在长文本生成方面表现突出。该方法强调动态调整训练数据和超参数，提升了模型的多样性和准确性。

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

量子位 ·

本文介绍了MiniMax-M1模型的核心创新，包括闪电注意力和混合专家架构，显著提升了长文本处理能力。采用CISPO算法优化强化学习训练，提高效率并降低成本。模型在数学推理和工具调用等任务中表现优异，全面开源推动大模型应用普及。未来挑战包括数学推理优化和生态建设。

MiniMax-M1：闪电注意力重塑大模型推理效率，百万上下文时代来临，附技术报告英中对照版

我爱自然语言处理 ·

西北大学与谷歌合作提出贝叶斯自适应强化学习（BARL），首次阐释了大型语言模型（LLM）如何有效进行反思与探索新策略。研究表明，BARL在数学推理任务中表现优异，能够更高效地利用信息，避免无效反思，从而提升模型的决策能力。

首次解释LLM如何推理反思！西北大学谷歌新框架：引入贝叶斯自适应强化学习，数学推理全面提升

量子位 ·