小红花·文摘

文章讲述了作者帮助女儿可可提高数学能力的经历。可可对数学感到无聊，习惯用加法解决问题。作者通过引导她理解数学原理，逐步培养她的兴趣，最终可可开始主动询问问题，并对数学产生兴趣，希望找到有趣的数学书籍。

带可可学数学

云风的 BLOG ·

CMU研究发现，数学能力强的大模型在其他领域的表现有限。只有通过强化学习（RL）训练的模型能够有效迁移数学推理技能，而监督微调（SFT）可能导致负迁移。研究表明，微调方法是影响迁移能力的关键，RL模型在保持原有知识的同时提升了特定领域的表现。

大模型刷数学题竟有害？CMU评估20+模型指出训练陷阱

量子位 ·

清华大学与上海AI实验室的研究表明，通过测试时强化学习（TTRL），模型的数学能力提升了159%。该方法无需数据标注，模型能够自生成训练数据，显著提高了多个数据集的准确率，尤其在AIME 2024竞赛中表现优异。

无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

量子位 ·

上海AI Lab的研究表明，7B的DeepSeek模型在数学能力上超越671B的R1满血版，提出了新的TTS框架，强调策略模型和问题难度对性能的影响。实验显示，小模型在简单任务中表现良好，而大模型在复杂任务中更具优势，未来需探索更多任务和优化方法。

啊？7B的DeepSeek反超R1满血版，上海AI Lab周伯文团队新成果

量子位 ·

1M长上下文，满血版Gemini 2.0又一次登上Chatbot Arena榜首

机器之心 ·

「DeepSeek接班OpenAI」，最新开源的R1推理模型，让AI圈爆了

机器之心 ·

追平满血版o1的国产多模态模型终于来了！训练细节全部公开

机器之心 ·

讯飞星火深度推理模型X1在数学辅导方面表现出色，能够帮助学生完成作业并应对奥林匹克竞赛。作为首个完全依赖国产算力的推理模型，X1展现了清晰的推理过程，体现了国产技术的创新与突破。该模型已在教育领域应用，受到教师的好评，未来将进一步增强学习辅导能力。

国内数学最强！实测讯飞版o1：上能打奥赛卷高考，下能辅导寒假作业

量子位 ·

考研数学得126分、还能编写小游戏，智谱首个推理模型来了，人人免费用

机器之心 ·

商汤科技的SenseNova多模态大模型在OpenCompass评测中获得第一，平均得分77.4，尤其在MathVista数据集上得分78.4，展现出强大的数学能力。该模型实现了跨模态深度融合，提升了对多种数据的理解，未来可广泛应用于教育和自动驾驶等领域。

如何在云端部署QwQ 32B预览版？

DEV Community ·

谷歌新版Gemini（Exp 1114）超越OpenAI的o1，成为AI竞技场的领头羊，数学能力与o1相当，获得六项第一。尽管在编码和风格控制上表现不佳，但在视觉能力上领先。网友反馈褒贬不一，部分人质疑其是否为Gemini 2的预览版。

谷歌杀回来了！新版Gemini跑分超o1登顶第一，CEO：这才哪到哪儿

量子位 ·

本研究提出了一种新方法，通过结合语言和数学能力解决非英语任务中的数据不足问题。采用层交换技术的合并模型在数学基准测试中性能提升了10%，展示了跨语言迁移推理的潜力。

用于大型语言模型的零-shot跨语言迁移的层交换

BriefGPT - AI 论文速递 ·

谷歌发布Gemini 1.5，数学能力超越o1-preview，成本仅为其十分之一，几乎无延迟。包括Gemini-1.5-Pro-002和Gemini-1.5-Flash-002两个型号，性能在数学、长文本和多模态方面显著提升。价格降低，速率限制提高，输出速度加倍，延迟减少。视觉理解和代码生成能力增强，适合摘要和问答应用。音频转录准确率达99%。

谷歌Gemini数学反超o1预览版！成本仅1/10、无需额外思考时间

量子位 ·

这篇文章介绍了一种评估语言模型数学能力的新方法，通过研究它们是否能够辨别数学内容所激发的技能和概念。研究人员创建了两个数据集，一个包括数学技能和概念的描述，另一个包含带有这些标签的问题。他们发现语言模型在标记和验证与问题相关的标准方面存在困难，预测的标签与真实标签接近但有细微差异。此外，语言模型生成的问题与提示中描述的标准不完全一致。最后，研究人员使用数学标准对问题进行分类，以更好地理解为何某些问题对模型而言更难解决。

通过结合教育课程评估语言模型的数学推理能力

BriefGPT - AI 论文速递 ·

深度求索开源了DeepSeek-Coder-V2模型，是全球首个在代码、数学能力上超越GPT-4-Turbo等的开源代码大模型。DeepSeek-Coder-V2包含236B与16B两种参数规模，支持338种编程语言。SiliconCloud上线了DeepSeek-Coder-V2开源模型，并提供大模型推理加速服务。新用户还送1亿token。