小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
谷歌DeepMind的AI自己解出了9道数学难题,每道只花了几百美元

谷歌DeepMind的AI系统在无人帮助下成功解出了9道长期未解的数学难题,每道题的成本仅为几百美元。这一成就展示了AI在数学推理领域的强大能力,可能会改变数学研究的方式。AI通过逻辑推理链条自动寻找解法,效率远超人类数学家,未来在多个科学领域有望发挥重要作用。

谷歌DeepMind的AI自己解出了9道数学难题,每道只花了几百美元

极道
极道 · 2026-05-25T01:09:00Z
LaDiR:潜在扩散增强大型语言模型的文本推理

LaDiR(潜在扩散推理器)是一种新颖的推理框架,结合了连续潜在表示的表达能力与潜在扩散模型的迭代精炼能力。通过变分自编码器(VAE)构建的结构化潜在推理空间,LaDiR在数学推理和规划基准测试中展现出更高的准确性、多样性和可解释性,开辟了文本推理的新范式。

LaDiR:潜在扩散增强大型语言模型的文本推理

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-28T00:00:00Z
iGRPO:让 AI 像人类一样自我反思,数学推理能力再升级!

本文提出了iGRPO(迭代组相对策略优化),通过自我反馈提升AI的数学推理能力。该方法包括探索与选择、条件化改进两个阶段,显著提升多个基准测试的表现,且无需复杂的外部反馈。iGRPO的理念与人类学习相似,强调超越自我,具有广泛应用潜力。

iGRPO:让 AI 像人类一样自我反思,数学推理能力再升级!

Micropaper
Micropaper · 2026-03-02T21:30:00Z
建设性电路放大:通过针对性子网络更新提高大语言模型中的数学推理

本文提出了一种新方法“建设性电路放大”,通过识别模型推理中的关键标记和相关组件,针对性地更新大语言模型(LLMs)的特定电路。这种方法在数学推理中提高了准确率,最多可达11.4%,同时仅修改了1.59%的模型组件,对其他能力影响最小,表明选择性更新稀疏组件可以有效增强特定能力。

建设性电路放大:通过针对性子网络更新提高大语言模型中的数学推理

Apple Machine Learning Research
Apple Machine Learning Research · 2026-02-25T00:00:00Z

天才陈立杰已加盟OpenAI,负责数学推理。他16岁保送清华,后在UC伯克利担任助理教授,专注于计算复杂性理论,并在信息学竞赛中表现优异,发表多篇重要论文,近期研究扩散语言模型。

姚班传奇陈立杰入职OpenAI!16岁保送清华,30岁拿下UC伯克利助理教授

量子位
量子位 · 2026-01-15T06:42:13Z
AI 论文周报丨DeepSeekMath-V2/医学视频图像分割/3D 重建/Qwen3-VL……一文速览 AI 前沿

DeepSeek开发的DeepSeekMath-V2在数学推理方面取得显著进展,尤其在定理证明中表现优异,获得国际数学奥林匹克金牌和普特南接近满分。该模型通过自我修正和验证循环提升推理能力。

AI 论文周报丨DeepSeekMath-V2/医学视频图像分割/3D 重建/Qwen3-VL……一文速览 AI 前沿

HyperAI超神经
HyperAI超神经 · 2025-12-06T03:01:13Z
Deepseek V3.2高分真相:我们被“遥遥领先”忽悠了?Special版跑分超GPT-5,但API成本砍半才是真杀招|DeepSeek-V3.2、DSA

Deepseek V3.2于12月1日发布,采用稀疏注意力算法DSA,显著降低API调用成本。尽管在数学推理方面表现优异,但实际应用能力有限,尤其缺乏多模态支持。整体而言,Deepseek在行业内具有创新贡献,但基础模型仍需提升以实现全面领先。

Deepseek V3.2高分真相:我们被“遥遥领先”忽悠了?Special版跑分超GPT-5,但API成本砍半才是真杀招|DeepSeek-V3.2、DSA

硕鼠的博客站
硕鼠的博客站 · 2025-12-05T01:06:50Z

DeepSeek推出开源数学模型DeepSeekMath-V2,专注于自验证推理,表现超越谷歌和OpenAI,获得IMO金牌级分数。该模型通过迭代强化学习优化证明验证和生成,克服传统方法的局限性,展现出卓越的数学推理能力。

DeepSeek再破谷歌OpenAI垄断:开源IMO数学金牌大模型

量子位
量子位 · 2025-11-28T04:43:20Z
美团 LongCat 发布 AMO-Bench:突破 AIME 评测饱和困境,重新定义 LLM 数学上限

美团LongCat团队推出AMO-Bench,包含50道高难度原创数学推理题,旨在提升大模型的推理能力。目前顶尖模型在该评测中的表现仍未及格,显示出其在复杂推理任务上的局限性。AMO-Bench为行业提供了新的评测标准,未来将持续更新。

美团 LongCat 发布 AMO-Bench:突破 AIME 评测饱和困境,重新定义 LLM 数学上限

美团技术团队
美团技术团队 · 2025-11-27T00:00:00Z

数学推理正成为人工智能的重要研究方向,机器逐渐掌握逻辑推演和多步思考。高质量、结构化的数据集对模型推理能力至关重要,数据集的多样性和可解释性是推动人工智能向“可解释智能”发展的关键特征。

7大数学推理数据集汇总,覆盖算术推理/符号逻辑/视觉数学/几何分析

HyperAI超神经
HyperAI超神经 · 2025-10-21T05:55:30Z

蚂蚁集团发布了开源的万亿参数思考模型Ring-1T,具备接近GPT-5的能力,数学推理达到IMO银牌水平。该模型通过自研算法解决训练与推理精度差异,在医疗问答和人类偏好对齐测试中表现优异。Ring-1T是蚂蚁在万亿参数模型上的首次尝试,未来将继续优化。

蚂蚁发布并开源万亿参数思考模型Ring-1T,综合能力逼近GPT-5

量子位
量子位 · 2025-10-14T03:00:24Z

研究团队提出了一种选择性熵正则化方法(SIREN),有效解决了大语言模型在RLVR训练中的“熵困境”。该方法通过限制探索范围、聚焦关键决策和稳定训练过程,精准调控探索行为,显著提升了模型在数学推理等任务上的表现。

拒绝“熵崩塌”和“熵爆炸”!这项研究让大模型推理成绩飙升

量子位
量子位 · 2025-10-13T09:12:43Z

阿联酋推出的K2 Think是全球最快的开源AI模型,速度超过2000 tokens/秒,参数仅32B,专注于数学推理,表现优异,具备多项技术创新。

Qwen又立功,全球最快开源模型诞生,超2000 tokens/秒!

量子位
量子位 · 2025-09-10T11:21:11Z

字节推出的Seed-Prover模型在数学推理方面表现优异,解决了78.1%的国际数学奥林匹克(IMO)难题,并在普特南数学竞赛中取得显著成绩。该模型结合引理式证明和Seed-Geometry引擎,建立了独特的几何问题库,达到了IMO银牌水平。

字节Seed数学新模型,SOTA了

量子位
量子位 · 2025-08-04T09:13:05Z
Kimi K2 发布并开源,实测效果确实很强!

Kimi K2 模型将于2025年发布并开源,具备强大的代码生成和通用任务处理能力,在多个基准测试中表现优异,尤其在代码生成和数学推理方面。用户可通过官网或 API 接入使用,支持生成知识卡片和复杂应用,整体效果良好,期待国产大模型的进一步发展。

Kimi K2 发布并开源,实测效果确实很强!

Oct.Cool
Oct.Cool · 2025-07-14T00:00:00Z

香港大学、字节跳动Seed和复旦大学联合推出的Polaris方法,通过700步强化学习训练,使4B模型在数学推理能力上超越多款商业大模型,特别是在长文本生成方面表现突出。该方法强调动态调整训练数据和超参数,提升了模型的多样性和准确性。

4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦

量子位
量子位 · 2025-07-09T06:58:32Z

本文介绍了MiniMax-M1模型的核心创新,包括闪电注意力和混合专家架构,显著提升了长文本处理能力。采用CISPO算法优化强化学习训练,提高效率并降低成本。模型在数学推理和工具调用等任务中表现优异,全面开源推动大模型应用普及。未来挑战包括数学推理优化和生态建设。

MiniMax-M1:闪电注意力重塑大模型推理效率,百万上下文时代来临,附技术报告英中对照版

我爱自然语言处理
我爱自然语言处理 · 2025-07-03T09:14:03Z

西北大学与谷歌合作提出贝叶斯自适应强化学习(BARL),首次阐释了大型语言模型(LLM)如何有效进行反思与探索新策略。研究表明,BARL在数学推理任务中表现优异,能够更高效地利用信息,避免无效反思,从而提升模型的决策能力。

首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

量子位
量子位 · 2025-06-02T04:50:27Z

Ubiquant团队提出了一种新方法——熵最小化(EM),仅需一条无标签数据和10步训练,显著提升大语言模型(LLM)性能,超越传统强化学习(RL)方法。EM通过优化模型预测的熵,增强模型自信,适用于数据稀缺场景,降低后训练成本。研究表明,EM在数学推理任务中表现优异,具有广泛应用前景。

挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化

量子位
量子位 · 2025-06-01T04:57:36Z

DeepMind开源了形式化数学猜想库,收录经典数学猜想,鼓励用户贡献新猜想、改进引用或修复错误。陶哲轩支持该库,认为形式化表述是利用自动化工具解决开放性问题的重要步骤。

陶哲轩转发!DeepMind开源「AI数学证明标准习题集」

量子位
量子位 · 2025-05-31T04:06:13Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码