小红花·文摘

2011年清华大学自主招生数学题解析：一道经典数列题的解法与思路

Long Luo's Life Notes ·

2011年清华大学自主招生数学题解析：一道经典数列题的解法与思路

Long Luo's Life Notes ·

谷歌DeepMind的AlphaProof模型公开了技术细节，团队由10人组成，训练了8000万道数学题。该模型将数学证明视为游戏，利用强化学习和变体生成技术，在2024年国际数学奥林匹克中成功解决多道难题并获得金牌。尽管表现优异，但在处理新定义时仍面临挑战。

Nature公开谷歌IMO金牌模型技术细节！核心团队仅10人，一年给AI编出8000万道数学题训练

量子位 ·

研究表明，大语言模型在解心算题时，计算主要集中在最后一个token上，表明模型在特定任务中不需全局信息。通过消融实验，揭示了模型内部的稀疏子图结构，强调了输入特定计算与通用计算的分离。

AI解数学题只靠最后一个token

量子位 ·

阿里推出了Qwen3-Max-Preview模型，参数达到1万亿，性能显著提升，支持多模态和编程，尤其在解答数学题和生成代码方面表现优异，用户反馈积极。尽管尚未开源，未来版本值得期待。

拜拜Claude！阿里最强万亿模型编程秒了Opus4，实测在此

量子位 ·

CMU研究发现，数学能力强的大模型在其他领域的表现有限。只有通过强化学习（RL）训练的模型能够有效迁移数学推理技能，而监督微调（SFT）可能导致负迁移。研究表明，微调方法是影响迁移能力的关键，RL模型在保持原有知识的同时提升了特定领域的表现。

大模型刷数学题竟有害？CMU评估20+模型指出训练陷阱

量子位 ·

研究表明，添加与猫相关的语句会显著提高大模型的数学错误率，错误率增加300%。DeepSeek和OpenAI的模型均受到影响，推理能力下降，Token消耗增加，猫的干扰分散了模型的注意力，导致频繁出错。

数学题干带猫AI就不会了！错误率翻300%，DeepSeek、o1都不能幸免

量子位 ·

FormalMATH发布了5560道数学题的基准测试，以评估AI模型的数学推理能力。最佳模型的成功率仅为16.46%，显示出在严格逻辑推导方面的困难。研究团队提出了自动化流程以提高效率，并呼吁学术界共同推动形式化数学推理技术的发展。

挑战AI数学推理极限！大规模形式化数学基准FormalMATH发布，最强模型成功率仅16%

量子位 ·

数学题在信息学竞赛中至关重要，涉及几何和数论等领域。本文总结了矩形和正方形的数量计算方法，提供了相关公式和示例，并强调使用 long long 类型保存结果。

CSPJ 教学思考：数学题

唐巧的博客 ·

阿里推出的QVQ-Max是一款视觉推理大模型，能够分析手相、识别风景和解答数学题，支持图像和视频的深度思考，具备强大的解析和推理能力，并能生成插画和短视频脚本，用户可免费体验。

AI大模型看手相！图片视频加持深度思考，阿里QVQ-Max“神了神了”

量子位 ·

以一敌五、屠榜登顶的谷歌Gemini 2.5，居然栽在小学数学题上

机器之心 ·

本研究提出了一种新方法生成预测集（GPS），通过结合回归算法，利用样本分布的内在结构，生成有效且小的预测集。实验结果表明，GPS在代码生成和数学题等应用中优于现有方法，显示出显著的有效性。

Reducing Conformal Prediction Sets for Deep Generative Models via Conformal Regression

BriefGPT - AI 论文速递 ·

本研究评估了ChatGPT在解决586道韩国数学题中的表现，准确率为66.72%。研究结果为改善语言偏见和多语言培训提供了方向，可能增强其在个性化教育中的应用。

ChatGPT在教授韩国数学中的鲁棒性分析

BriefGPT - AI 论文速递 ·

谷歌发布的Gemini 2.0 Flash Thinking模型能够快速解决复杂问题，包括摩斯密码和数学题。用户反馈其在文本和视觉谜题上表现优异，但仍存在一些小bug，未来将增加更多功能。

谷歌版o1突发即屠榜！思考速度比所有模型快5倍，能解摩斯代码，数学物理秒秒钟解决

量子位 ·

上海AI实验室推出的强推理模型书生InternThinker已上线，能够快速解决复杂的数学、编程和数字游戏任务，具备长时间思考和自我反思的能力，推理表现优异，提升了整体推理能力。

上海AI实验室版o1已上线！数学题、Leetcode全拿下，还会玩24点

量子位 ·

给小学数学题加句「废话」，OpenAI o1就翻车了，苹果新论文质疑AI推理能力

机器之心 ·

真相了！大模型解数学题和人类真不一样：死记硬背、知识欠缺明显，GPT-4o表现最佳

机器之心 ·

9.11和9.9谁大？我们实测15个大模型，超半数翻车

机器之心 ·

好未来与微软合作推出智能学习助手“九章随时问”，通过AI技术帮助学生解决数学难题，提供两种讲解模式，培养解题思维和自主学习能力。该小程序采用微软的高精准ASR和超拟人TTS技术，提高用户体验。好未来的AI战略旨在提升学生学习能力，构建智慧学习生态系统。

当AI遇上数学题，化身“学习导师”

dotNET跨平台 ·

女儿问我一个数学题，找规律，我没做出来。我问了AI，得到了不同的答案。

一道小学六年级数学题和 AI 答案

不亦乐乎 ·