小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

文章讲述了作者帮助女儿可可提高数学能力的经历。可可对数学感到无聊,习惯用加法解决问题。作者通过引导她理解数学原理,逐步培养她的兴趣,最终可可开始主动询问问题,并对数学产生兴趣,希望找到有趣的数学书籍。

带可可学数学

云风的 BLOG
云风的 BLOG · 2025-12-16T01:50:28Z

CMU研究发现,数学能力强的大模型在其他领域的表现有限。只有通过强化学习(RL)训练的模型能够有效迁移数学推理技能,而监督微调(SFT)可能导致负迁移。研究表明,微调方法是影响迁移能力的关键,RL模型在保持原有知识的同时提升了特定领域的表现。

大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱

量子位
量子位 · 2025-07-08T09:08:45Z

清华大学与上海AI实验室的研究表明,通过测试时强化学习(TTRL),模型的数学能力提升了159%。该方法无需数据标注,模型能够自生成训练数据,显著提高了多个数据集的准确率,尤其在AIME 2024竞赛中表现优异。

无需数据标注!测试时强化学习,模型数学能力暴增 | 清华&上海AI Lab

量子位
量子位 · 2025-04-24T06:26:28Z

上海AI Lab的研究表明,7B的DeepSeek模型在数学能力上超越671B的R1满血版,提出了新的TTS框架,强调策略模型和问题难度对性能的影响。实验显示,小模型在简单任务中表现良好,而大模型在复杂任务中更具优势,未来需探索更多任务和优化方法。

啊?7B的DeepSeek反超R1满血版,上海AI Lab周伯文团队新成果

量子位
量子位 · 2025-02-12T04:10:36Z
1M长上下文,满血版Gemini 2.0又一次登上Chatbot Arena榜首

谷歌推出了Gemini 2.0 Flash Thinking模型,具备1M token的长上下文理解能力,能够在多轮对话中自我纠错。该模型在数学和科学能力测试中表现显著提升。Jeff Dean表示,目标是打造全面均衡的通用模型,并持续改进以满足用户需求。

1M长上下文,满血版Gemini 2.0又一次登上Chatbot Arena榜首

机器之心
机器之心 · 2025-01-22T05:23:12Z
「DeepSeek接班OpenAI」,最新开源的R1推理模型,让AI圈爆了

DeepSeek发布了新模型DeepSeek-R1,具备强大的数学、代码和推理能力,全面对标OpenAI的o1。该模型通过多阶段强化学习训练,显著提升推理能力,并开源660B参数的模型权重。DeepSeek-R1的API定价具性价比,在多个基准测试中表现优异,超越许多现有模型。

「DeepSeek接班OpenAI」,最新开源的R1推理模型,让AI圈爆了

机器之心
机器之心 · 2025-01-21T04:43:20Z
追平满血版o1的国产多模态模型终于来了!训练细节全部公开

月之暗面发布了Kimi k1.5多模态思考模型,其性能与OpenAI的o1相当,尤其在数学和编程能力上显著领先。该模型在多项基准测试中表现优异,采用简单有效的强化学习框架,提升了推理能力。预计2025年将继续升级k系列模型。

追平满血版o1的国产多模态模型终于来了!训练细节全部公开

机器之心
机器之心 · 2025-01-21T04:40:43Z

讯飞星火深度推理模型X1在数学辅导方面表现出色,能够帮助学生完成作业并应对奥林匹克竞赛。作为首个完全依赖国产算力的推理模型,X1展现了清晰的推理过程,体现了国产技术的创新与突破。该模型已在教育领域应用,受到教师的好评,未来将进一步增强学习辅导能力。

国内数学最强!实测讯飞版o1:上能打奥赛卷高考,下能辅导寒假作业

量子位
量子位 · 2025-01-15T13:19:38Z
考研数学得126分、还能编写小游戏,智谱首个推理模型来了,人人免费用

智谱推出的GLM-Zero-Preview模型专注于提升AI推理能力,擅长处理复杂问题,尤其在数学和编程方面表现出色,支持多种编程语言,用户可免费体验。该模型展现出类人的思考能力,有效应对中文逻辑陷阱和复杂推理。智谱将持续优化该模型,朝向AGI目标迈进。

考研数学得126分、还能编写小游戏,智谱首个推理模型来了,人人免费用

机器之心
机器之心 · 2024-12-31T05:26:00Z

商汤科技的SenseNova多模态大模型在OpenCompass评测中获得第一,平均得分77.4,尤其在MathVista数据集上得分78.4,展现出强大的数学能力。该模型实现了跨模态深度融合,提升了对多种数据的理解,未来可广泛应用于教育和自动驾驶等领域。

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

量子位
量子位 · 2024-12-19T11:46:38Z
如何在云端部署QwQ 32B预览版?

QwQ-32B-Preview是Qwen团队开发的实验性AI模型,拥有32.5B参数,具备强大的数学和编程能力,但在语言混合和常识理解方面存在挑战。该模型支持处理32,768个标记,适合云端部署,用户可通过NodeShift等平台轻松创建GPU虚拟机以运行该模型。

如何在云端部署QwQ 32B预览版?

DEV Community
DEV Community · 2024-12-04T10:54:26Z

谷歌新版Gemini(Exp 1114)超越OpenAI的o1,成为AI竞技场的领头羊,数学能力与o1相当,获得六项第一。尽管在编码和风格控制上表现不佳,但在视觉能力上领先。网友反馈褒贬不一,部分人质疑其是否为Gemini 2的预览版。

谷歌杀回来了!新版Gemini跑分超o1登顶第一,CEO:这才哪到哪儿

量子位
量子位 · 2024-11-15T05:28:32Z

本研究提出了一种新方法,通过结合语言和数学能力解决非英语任务中的数据不足问题。采用层交换技术的合并模型在数学基准测试中性能提升了10%,展示了跨语言迁移推理的潜力。

用于大型语言模型的零-shot跨语言迁移的层交换

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-02T00:00:00Z

谷歌发布Gemini 1.5,数学能力超越o1-preview,成本仅为其十分之一,几乎无延迟。包括Gemini-1.5-Pro-002和Gemini-1.5-Flash-002两个型号,性能在数学、长文本和多模态方面显著提升。价格降低,速率限制提高,输出速度加倍,延迟减少。视觉理解和代码生成能力增强,适合摘要和问答应用。音频转录准确率达99%。

谷歌Gemini数学反超o1预览版!成本仅1/10、无需额外思考时间

量子位
量子位 · 2024-09-25T23:52:45Z

这篇文章介绍了一种评估语言模型数学能力的新方法,通过研究它们是否能够辨别数学内容所激发的技能和概念。研究人员创建了两个数据集,一个包括数学技能和概念的描述,另一个包含带有这些标签的问题。他们发现语言模型在标记和验证与问题相关的标准方面存在困难,预测的标签与真实标签接近但有细微差异。此外,语言模型生成的问题与提示中描述的标准不完全一致。最后,研究人员使用数学标准对问题进行分类,以更好地理解为何某些问题对模型而言更难解决。

通过结合教育课程评估语言模型的数学推理能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-08T00:00:00Z

深度求索开源了DeepSeek-Coder-V2模型,是全球首个在代码、数学能力上超越GPT-4-Turbo等的开源代码大模型。DeepSeek-Coder-V2包含236B与16B两种参数规模,支持338种编程语言。SiliconCloud上线了DeepSeek-Coder-V2开源模型,并提供大模型推理加速服务。新用户还送1亿token。

击败GPT4-Turbo,最强开源代码模型DeepSeek-Coder-V2问世

OneFlow深度学习框架
OneFlow深度学习框架 · 2024-06-19T02:01:52Z

该文章介绍了一种新的方法,结合了大型语言模型和传统代码,以提高Bard的推理和数学能力。通过隐式代码执行,识别可能受益于逻辑代码的提示,编写代码并执行,以生成更准确的响应。在内部挑战数据集中,这种方法已经将Bard对计算和数学问题的响应准确率提高了约30%。

Bard在逻辑和推理方面的能力正在提升

The Keyword
The Keyword · 2023-06-07T16:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码