小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

谷歌DeepMind的AlphaProof模型公开了技术细节,团队由10人组成,训练了8000万道数学题。该模型将数学证明视为游戏,利用强化学习和变体生成技术,在2024年国际数学奥林匹克中成功解决多道难题并获得金牌。尽管表现优异,但在处理新定义时仍面临挑战。

Nature公开谷歌IMO金牌模型技术细节!核心团队仅10人,一年给AI编出8000万道数学题训练

量子位
量子位 · 2025-11-13T07:55:51Z

研究表明,大语言模型在解心算题时,计算主要集中在最后一个token上,表明模型在特定任务中不需全局信息。通过消融实验,揭示了模型内部的稀疏子图结构,强调了输入特定计算与通用计算的分离。

AI解数学题只靠最后一个token

量子位
量子位 · 2025-09-14T05:37:10Z

阿里推出了Qwen3-Max-Preview模型,参数达到1万亿,性能显著提升,支持多模态和编程,尤其在解答数学题和生成代码方面表现优异,用户反馈积极。尽管尚未开源,未来版本值得期待。

拜拜Claude!阿里最强万亿模型编程秒了Opus4,实测在此

量子位
量子位 · 2025-09-06T04:04:23Z

CMU研究发现,数学能力强的大模型在其他领域的表现有限。只有通过强化学习(RL)训练的模型能够有效迁移数学推理技能,而监督微调(SFT)可能导致负迁移。研究表明,微调方法是影响迁移能力的关键,RL模型在保持原有知识的同时提升了特定领域的表现。

大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱

量子位
量子位 · 2025-07-08T09:08:45Z

研究表明,添加与猫相关的语句会显著提高大模型的数学错误率,错误率增加300%。DeepSeek和OpenAI的模型均受到影响,推理能力下降,Token消耗增加,猫的干扰分散了模型的注意力,导致频繁出错。

数学题干带猫AI就不会了!错误率翻300%,DeepSeek、o1都不能幸免

量子位
量子位 · 2025-07-05T11:06:03Z

FormalMATH发布了5560道数学题的基准测试,以评估AI模型的数学推理能力。最佳模型的成功率仅为16.46%,显示出在严格逻辑推导方面的困难。研究团队提出了自动化流程以提高效率,并呼吁学术界共同推动形式化数学推理技术的发展。

挑战AI数学推理极限!大规模形式化数学基准FormalMATH发布,最强模型成功率仅16%

量子位
量子位 · 2025-05-08T00:59:09Z

数学题在信息学竞赛中至关重要,涉及几何和数论等领域。本文总结了矩形和正方形的数量计算方法,提供了相关公式和示例,并强调使用 long long 类型保存结果。

CSPJ 教学思考:数学题

唐巧的博客
唐巧的博客 · 2025-04-12T13:40:39Z

阿里推出的QVQ-Max是一款视觉推理大模型,能够分析手相、识别风景和解答数学题,支持图像和视频的深度思考,具备强大的解析和推理能力,并能生成插画和短视频脚本,用户可免费体验。

AI大模型看手相!图片视频加持深度思考,阿里QVQ-Max“神了神了”

量子位
量子位 · 2025-03-28T04:30:50Z
以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

OpenAI推出了GPT-4o,而谷歌发布了Gemini 2.5,后者在高级推理和编码方面表现优异,正确率达到80%。相比之下,OpenAI的o3-mini和GPT-4.5在测试中表现不佳,正确率为0。

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

机器之心
机器之心 · 2025-03-26T12:54:00Z

本研究提出了一种新方法生成预测集(GPS),通过结合回归算法,利用样本分布的内在结构,生成有效且小的预测集。实验结果表明,GPS在代码生成和数学题等应用中优于现有方法,显示出显著的有效性。

Reducing Conformal Prediction Sets for Deep Generative Models via Conformal Regression

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-13T00:00:00Z

本研究评估了ChatGPT在解决586道韩国数学题中的表现,准确率为66.72%。研究结果为改善语言偏见和多语言培训提供了方向,可能增强其在个性化教育中的应用。

ChatGPT在教授韩国数学中的鲁棒性分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

谷歌发布的Gemini 2.0 Flash Thinking模型能够快速解决复杂问题,包括摩斯密码和数学题。用户反馈其在文本和视觉谜题上表现优异,但仍存在一些小bug,未来将增加更多功能。

谷歌版o1突发即屠榜!思考速度比所有模型快5倍,能解摩斯代码,数学物理秒秒钟解决

量子位
量子位 · 2024-12-19T21:25:15Z

上海AI实验室推出的强推理模型书生InternThinker已上线,能够快速解决复杂的数学、编程和数字游戏任务,具备长时间思考和自我反思的能力,推理表现优异,提升了整体推理能力。

上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点

量子位
量子位 · 2024-11-28T07:07:13Z
给小学数学题加句「废话」,OpenAI o1就翻车了,苹果新论文质疑AI推理能力

苹果的一篇论文研究了大型语言模型的推理能力,认为它们可能无法进行真正的逻辑推理。研究发现,LLM在处理数学问题时容易受无关信息干扰,表现不稳定。论文提出GSM-Symbolic基准来评估其数学推理能力,发现模型在复杂性增加时性能下降。研究指出,LLM主要依赖模式匹配而非形式化推理,强调需要多样化的评估框架来了解其局限性。

给小学数学题加句「废话」,OpenAI o1就翻车了,苹果新论文质疑AI推理能力

机器之心
机器之心 · 2024-10-12T04:50:53Z
真相了!大模型解数学题和人类真不一样:死记硬背、知识欠缺明显,GPT-4o表现最佳

该文章介绍了WE-MATH基准,用于评估大型多模态模型在数学推理任务中的表现。通过拆解数学问题为子问题,并引入四维度指标进行评估,发现模型的作答情况与问题所包含的知识点数量呈负相关。大多数模型存在知识掌握不足和死记硬背的问题,而GPT-4o模型在这方面表现最好。引入KCA策略可以提升模型的表现。该基准为研究人类般的视觉数学推理提供了启示。

真相了!大模型解数学题和人类真不一样:死记硬背、知识欠缺明显,GPT-4o表现最佳

机器之心
机器之心 · 2024-07-23T03:09:19Z
9.11和9.9谁大?我们实测15个大模型,超半数翻车

大模型在简单数学题上表现不佳,无法正确回答9.11和9.9哪个更大的问题。GPT-4o、Claude-3.5-Sonnet和Gemini等模型回答错误,而百度文心一言、阿里通义千问和科大讯飞星火等模型回答正确。专家认为,大模型在处理比大小等简单数学题时依赖于预测模型的成功率,分词器的算法和机制可能导致回答错误。大模型在第二轮提问时往往能给出正确答案,提高大模型数学能力的关键在于提供高质量的数据支持。

9.11和9.9谁大?我们实测15个大模型,超半数翻车

机器之心
机器之心 · 2024-07-18T06:32:00Z

好未来与微软合作推出智能学习助手“九章随时问”,通过AI技术帮助学生解决数学难题,提供两种讲解模式,培养解题思维和自主学习能力。该小程序采用微软的高精准ASR和超拟人TTS技术,提高用户体验。好未来的AI战略旨在提升学生学习能力,构建智慧学习生态系统。

当AI遇上数学题,化身“学习导师”

dotNET跨平台
dotNET跨平台 · 2024-07-04T00:02:53Z

女儿问我一个数学题,找规律,我没做出来。我问了AI,得到了不同的答案。

一道小学六年级数学题和 AI 答案

不亦乐乎
不亦乐乎 · 2024-05-31T13:28:20Z
小学生挑战初中立方和计算题解法

这篇文章讲述了一个数学题,题目是求解 x^5 + y^5 的值,最后的答案是 149/9。

小学生挑战初中立方和计算题解法

愆伏
愆伏 · 2024-04-28T07:19:02Z
小学生挑战初中数学题

最近孩子上补习班,遇到一道题不会做,我帮她找到了答案。题目是求1/a2-1 + 1/a1-1 + ... + 1/a100-1的值,最终结果为33/100。

小学生挑战初中数学题

愆伏
愆伏 · 2024-04-28T03:43:13Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码