文章讲述了作者帮助女儿可可提高数学能力的经历。可可对数学感到无聊,习惯用加法解决问题。作者通过引导她理解数学原理,逐步培养她的兴趣,最终可可开始主动询问问题,并对数学产生兴趣,希望找到有趣的数学书籍。
CMU研究发现,数学能力强的大模型在其他领域的表现有限。只有通过强化学习(RL)训练的模型能够有效迁移数学推理技能,而监督微调(SFT)可能导致负迁移。研究表明,微调方法是影响迁移能力的关键,RL模型在保持原有知识的同时提升了特定领域的表现。
清华大学与上海AI实验室的研究表明,通过测试时强化学习(TTRL),模型的数学能力提升了159%。该方法无需数据标注,模型能够自生成训练数据,显著提高了多个数据集的准确率,尤其在AIME 2024竞赛中表现优异。
上海AI Lab的研究表明,7B的DeepSeek模型在数学能力上超越671B的R1满血版,提出了新的TTS框架,强调策略模型和问题难度对性能的影响。实验显示,小模型在简单任务中表现良好,而大模型在复杂任务中更具优势,未来需探索更多任务和优化方法。
谷歌推出了Gemini 2.0 Flash Thinking模型,具备1M token的长上下文理解能力,能够在多轮对话中自我纠错。该模型在数学和科学能力测试中表现显著提升。Jeff Dean表示,目标是打造全面均衡的通用模型,并持续改进以满足用户需求。
DeepSeek发布了新模型DeepSeek-R1,具备强大的数学、代码和推理能力,全面对标OpenAI的o1。该模型通过多阶段强化学习训练,显著提升推理能力,并开源660B参数的模型权重。DeepSeek-R1的API定价具性价比,在多个基准测试中表现优异,超越许多现有模型。
月之暗面发布了Kimi k1.5多模态思考模型,其性能与OpenAI的o1相当,尤其在数学和编程能力上显著领先。该模型在多项基准测试中表现优异,采用简单有效的强化学习框架,提升了推理能力。预计2025年将继续升级k系列模型。
讯飞星火深度推理模型X1在数学辅导方面表现出色,能够帮助学生完成作业并应对奥林匹克竞赛。作为首个完全依赖国产算力的推理模型,X1展现了清晰的推理过程,体现了国产技术的创新与突破。该模型已在教育领域应用,受到教师的好评,未来将进一步增强学习辅导能力。
智谱推出的GLM-Zero-Preview模型专注于提升AI推理能力,擅长处理复杂问题,尤其在数学和编程方面表现出色,支持多种编程语言,用户可免费体验。该模型展现出类人的思考能力,有效应对中文逻辑陷阱和复杂推理。智谱将持续优化该模型,朝向AGI目标迈进。
商汤科技的SenseNova多模态大模型在OpenCompass评测中获得第一,平均得分77.4,尤其在MathVista数据集上得分78.4,展现出强大的数学能力。该模型实现了跨模态深度融合,提升了对多种数据的理解,未来可广泛应用于教育和自动驾驶等领域。
QwQ-32B-Preview是Qwen团队开发的实验性AI模型,拥有32.5B参数,具备强大的数学和编程能力,但在语言混合和常识理解方面存在挑战。该模型支持处理32,768个标记,适合云端部署,用户可通过NodeShift等平台轻松创建GPU虚拟机以运行该模型。
谷歌新版Gemini(Exp 1114)超越OpenAI的o1,成为AI竞技场的领头羊,数学能力与o1相当,获得六项第一。尽管在编码和风格控制上表现不佳,但在视觉能力上领先。网友反馈褒贬不一,部分人质疑其是否为Gemini 2的预览版。
本研究提出了一种新方法,通过结合语言和数学能力解决非英语任务中的数据不足问题。采用层交换技术的合并模型在数学基准测试中性能提升了10%,展示了跨语言迁移推理的潜力。
谷歌发布Gemini 1.5,数学能力超越o1-preview,成本仅为其十分之一,几乎无延迟。包括Gemini-1.5-Pro-002和Gemini-1.5-Flash-002两个型号,性能在数学、长文本和多模态方面显著提升。价格降低,速率限制提高,输出速度加倍,延迟减少。视觉理解和代码生成能力增强,适合摘要和问答应用。音频转录准确率达99%。
这篇文章介绍了一种评估语言模型数学能力的新方法,通过研究它们是否能够辨别数学内容所激发的技能和概念。研究人员创建了两个数据集,一个包括数学技能和概念的描述,另一个包含带有这些标签的问题。他们发现语言模型在标记和验证与问题相关的标准方面存在困难,预测的标签与真实标签接近但有细微差异。此外,语言模型生成的问题与提示中描述的标准不完全一致。最后,研究人员使用数学标准对问题进行分类,以更好地理解为何某些问题对模型而言更难解决。
深度求索开源了DeepSeek-Coder-V2模型,是全球首个在代码、数学能力上超越GPT-4-Turbo等的开源代码大模型。DeepSeek-Coder-V2包含236B与16B两种参数规模,支持338种编程语言。SiliconCloud上线了DeepSeek-Coder-V2开源模型,并提供大模型推理加速服务。新用户还送1亿token。
该文章介绍了一种新的方法,结合了大型语言模型和传统代码,以提高Bard的推理和数学能力。通过隐式代码执行,识别可能受益于逻辑代码的提示,编写代码并执行,以生成更准确的响应。在内部挑战数据集中,这种方法已经将Bard对计算和数学问题的响应准确率提高了约30%。
完成下面两步后,将自动完成登录并继续当前操作。