小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
LaDiR:潜在扩散增强大型语言模型的文本推理

LaDiR(潜在扩散推理器)是一种新颖的推理框架,结合了连续潜在表示的表达能力与潜在扩散模型的迭代精炼能力。通过变分自编码器(VAE)构建的结构化潜在推理空间,LaDiR在数学推理和规划基准测试中展现出更高的准确性、多样性和可解释性,开辟了文本推理的新范式。

LaDiR:潜在扩散增强大型语言模型的文本推理

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-28T00:00:00Z
iGRPO:让 AI 像人类一样自我反思,数学推理能力再升级!

本文提出了iGRPO(迭代组相对策略优化),通过自我反馈提升AI的数学推理能力。该方法包括探索与选择、条件化改进两个阶段,显著提升多个基准测试的表现,且无需复杂的外部反馈。iGRPO的理念与人类学习相似,强调超越自我,具有广泛应用潜力。

iGRPO:让 AI 像人类一样自我反思,数学推理能力再升级!

Micropaper
Micropaper · 2026-03-02T21:30:00Z
建设性电路放大:通过针对性子网络更新提高大语言模型中的数学推理

本文提出了一种新方法“建设性电路放大”,通过识别模型推理中的关键标记和相关组件,针对性地更新大语言模型(LLMs)的特定电路。这种方法在数学推理中提高了准确率,最多可达11.4%,同时仅修改了1.59%的模型组件,对其他能力影响最小,表明选择性更新稀疏组件可以有效增强特定能力。

建设性电路放大:通过针对性子网络更新提高大语言模型中的数学推理

Apple Machine Learning Research
Apple Machine Learning Research · 2026-02-25T00:00:00Z

天才陈立杰已加盟OpenAI,负责数学推理。他16岁保送清华,后在UC伯克利担任助理教授,专注于计算复杂性理论,并在信息学竞赛中表现优异,发表多篇重要论文,近期研究扩散语言模型。

姚班传奇陈立杰入职OpenAI!16岁保送清华,30岁拿下UC伯克利助理教授

量子位
量子位 · 2026-01-15T06:42:13Z
AI 论文周报丨DeepSeekMath-V2/医学视频图像分割/3D 重建/Qwen3-VL……一文速览 AI 前沿

DeepSeek开发的DeepSeekMath-V2在数学推理方面取得显著进展,尤其在定理证明中表现优异,获得国际数学奥林匹克金牌和普特南接近满分。该模型通过自我修正和验证循环提升推理能力。

AI 论文周报丨DeepSeekMath-V2/医学视频图像分割/3D 重建/Qwen3-VL……一文速览 AI 前沿

HyperAI超神经
HyperAI超神经 · 2025-12-06T03:01:13Z
Deepseek V3.2高分真相:我们被“遥遥领先”忽悠了?Special版跑分超GPT-5,但API成本砍半才是真杀招|DeepSeek-V3.2、DSA

Deepseek V3.2于12月1日发布,采用稀疏注意力算法DSA,显著降低API调用成本。尽管在数学推理方面表现优异,但实际应用能力有限,尤其缺乏多模态支持。整体而言,Deepseek在行业内具有创新贡献,但基础模型仍需提升以实现全面领先。

Deepseek V3.2高分真相:我们被“遥遥领先”忽悠了?Special版跑分超GPT-5,但API成本砍半才是真杀招|DeepSeek-V3.2、DSA

硕鼠的博客站
硕鼠的博客站 · 2025-12-05T01:06:50Z

DeepSeek推出开源数学模型DeepSeekMath-V2,专注于自验证推理,表现超越谷歌和OpenAI,获得IMO金牌级分数。该模型通过迭代强化学习优化证明验证和生成,克服传统方法的局限性,展现出卓越的数学推理能力。

DeepSeek再破谷歌OpenAI垄断:开源IMO数学金牌大模型

量子位
量子位 · 2025-11-28T04:43:20Z
美团 LongCat 发布 AMO-Bench:突破 AIME 评测饱和困境,重新定义 LLM 数学上限

美团LongCat团队推出AMO-Bench,包含50道高难度原创数学推理题,旨在提升大模型的推理能力。目前顶尖模型在该评测中的表现仍未及格,显示出其在复杂推理任务上的局限性。AMO-Bench为行业提供了新的评测标准,未来将持续更新。

美团 LongCat 发布 AMO-Bench:突破 AIME 评测饱和困境,重新定义 LLM 数学上限

美团技术团队
美团技术团队 · 2025-11-27T00:00:00Z

数学推理正成为人工智能的重要研究方向,机器逐渐掌握逻辑推演和多步思考。高质量、结构化的数据集对模型推理能力至关重要,数据集的多样性和可解释性是推动人工智能向“可解释智能”发展的关键特征。

7大数学推理数据集汇总,覆盖算术推理/符号逻辑/视觉数学/几何分析

HyperAI超神经
HyperAI超神经 · 2025-10-21T05:55:30Z

蚂蚁集团发布了开源的万亿参数思考模型Ring-1T,具备接近GPT-5的能力,数学推理达到IMO银牌水平。该模型通过自研算法解决训练与推理精度差异,在医疗问答和人类偏好对齐测试中表现优异。Ring-1T是蚂蚁在万亿参数模型上的首次尝试,未来将继续优化。

蚂蚁发布并开源万亿参数思考模型Ring-1T,综合能力逼近GPT-5

量子位
量子位 · 2025-10-14T03:00:24Z

研究团队提出了一种选择性熵正则化方法(SIREN),有效解决了大语言模型在RLVR训练中的“熵困境”。该方法通过限制探索范围、聚焦关键决策和稳定训练过程,精准调控探索行为,显著提升了模型在数学推理等任务上的表现。

拒绝“熵崩塌”和“熵爆炸”!这项研究让大模型推理成绩飙升

量子位
量子位 · 2025-10-13T09:12:43Z

阿联酋推出的K2 Think是全球最快的开源AI模型,速度超过2000 tokens/秒,参数仅32B,专注于数学推理,表现优异,具备多项技术创新。

Qwen又立功,全球最快开源模型诞生,超2000 tokens/秒!

量子位
量子位 · 2025-09-10T11:21:11Z

字节推出的Seed-Prover模型在数学推理方面表现优异,解决了78.1%的国际数学奥林匹克(IMO)难题,并在普特南数学竞赛中取得显著成绩。该模型结合引理式证明和Seed-Geometry引擎,建立了独特的几何问题库,达到了IMO银牌水平。

字节Seed数学新模型,SOTA了

量子位
量子位 · 2025-08-04T09:13:05Z
Kimi K2 发布并开源,实测效果确实很强!

Kimi K2 模型将于2025年发布并开源,具备强大的代码生成和通用任务处理能力,在多个基准测试中表现优异,尤其在代码生成和数学推理方面。用户可通过官网或 API 接入使用,支持生成知识卡片和复杂应用,整体效果良好,期待国产大模型的进一步发展。

Kimi K2 发布并开源,实测效果确实很强!

Oct.Cool
Oct.Cool · 2025-07-14T00:00:00Z

香港大学、字节跳动Seed和复旦大学联合推出的Polaris方法,通过700步强化学习训练,使4B模型在数学推理能力上超越多款商业大模型,特别是在长文本生成方面表现突出。该方法强调动态调整训练数据和超参数,提升了模型的多样性和准确性。

4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦

量子位
量子位 · 2025-07-09T06:58:32Z

本文介绍了MiniMax-M1模型的核心创新,包括闪电注意力和混合专家架构,显著提升了长文本处理能力。采用CISPO算法优化强化学习训练,提高效率并降低成本。模型在数学推理和工具调用等任务中表现优异,全面开源推动大模型应用普及。未来挑战包括数学推理优化和生态建设。

MiniMax-M1:闪电注意力重塑大模型推理效率,百万上下文时代来临,附技术报告英中对照版

我爱自然语言处理
我爱自然语言处理 · 2025-07-03T09:14:03Z

西北大学与谷歌合作提出贝叶斯自适应强化学习(BARL),首次阐释了大型语言模型(LLM)如何有效进行反思与探索新策略。研究表明,BARL在数学推理任务中表现优异,能够更高效地利用信息,避免无效反思,从而提升模型的决策能力。

首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

量子位
量子位 · 2025-06-02T04:50:27Z

Ubiquant团队提出了一种新方法——熵最小化(EM),仅需一条无标签数据和10步训练,显著提升大语言模型(LLM)性能,超越传统强化学习(RL)方法。EM通过优化模型预测的熵,增强模型自信,适用于数据稀缺场景,降低后训练成本。研究表明,EM在数学推理任务中表现优异,具有广泛应用前景。

挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化

量子位
量子位 · 2025-06-01T04:57:36Z

DeepMind开源了形式化数学猜想库,收录经典数学猜想,鼓励用户贡献新猜想、改进引用或修复错误。陶哲轩支持该库,认为形式化表述是利用自动化工具解决开放性问题的重要步骤。

陶哲轩转发!DeepMind开源「AI数学证明标准习题集」

量子位
量子位 · 2025-05-31T04:06:13Z

文章讨论了AI在数学推理和形式化证明方面的最新进展,特别是大模型的能力。5月29日将举行直播,邀请多个项目团队成员探讨AI数学的未来及其影响。

形式化证明与大模型:共创可验证的AI数学未来|量子位直播

量子位
量子位 · 2025-05-27T03:25:24Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码