小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
mAceReason-Math:一个高质量的多语言数学问题数据集,支持强化学习与可验证奖励(RLVR)

mAceReason-Math是一个高质量的多语言数学问题数据集,支持强化学习与可验证奖励(RLVR)研究。该数据集包含来自AceReason-Math语料库的挑战性数学问题翻译,覆盖14种语言,每种语言超过10,000个样本,旨在提升多语言RLVR的研究和基准测试。

mAceReason-Math:一个高质量的多语言数学问题数据集,支持强化学习与可验证奖励(RLVR)

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-13T00:00:00Z
AlphaEvolve:AI 打破 56 年数学纪录,发现更快的矩阵乘法算法

2025年,Google DeepMind的AlphaEvolve以48次标量乘法打破了1969年Strassen的矩阵乘法纪录。它不仅优化了矩阵运算,还解决了67个数学问题,展示了AI在数学领域的原创性和自我改进能力,预示着AI驱动的科学新时代的到来。

AlphaEvolve:AI 打破 56 年数学纪录,发现更快的矩阵乘法算法

Micropaper
Micropaper · 2026-03-01T01:45:00Z
链式思维在推理中的潜力:对轨迹动态的深入探讨

链式思维(CoT)提示是引导大型语言模型推理的标准技术。本文分析了数学问题中的CoT轨迹及其对最终答案的影响,发现CoT的潜力与正确答案的可能性相关,表现出非单调性和难以解释的尖峰。此外,部分CoT显著提升了较弱模型的表现,表明其机制具有可转移性。

链式思维在推理中的潜力:对轨迹动态的深入探讨

Apple Machine Learning Research
Apple Machine Learning Research · 2026-02-24T00:00:00Z
英特尔DeepMath推出智能架构,提高大型语言模型的数学能力

英特尔推出了DeepMath,一个基于Qwen3-Thinking的轻量级数学问题解决代理。它通过生成小型Python脚本来增强数学推理,减少错误和输出长度。DeepMath在多个数据集上表现优异,使用GRPO训练提高准确性,并在沙箱环境中安全执行代码。该工具已在GitHub和Hugging Face上发布。

英特尔DeepMath推出智能架构,提高大型语言模型的数学能力

InfoQ
InfoQ · 2026-01-05T21:00:00Z

字节推出的Seed Prover 1.5模型在IMO中获得金牌,成功解决前五道题目。该模型结合大规模强化学习与新形式化推理方法,显著提升了解题效率,并通过草稿和多工具交互更有效地处理复杂数学问题。

字节Seed发布最强数学模型:一招“打草稿”,IMO银牌变金牌

量子位
量子位 · 2025-12-25T06:10:36Z

知名数学家小野肯辞去终身教职,加入学生洪乐潼创办的AI公司Axiom,专注于开发数学问题解决的AI。Axiom已解决多个数学难题,吸引了众多顶尖人才,师生合作有望推动数学与AI的结合。

知名数学家辞职投身AI创业:老板是00后华人女生

量子位
量子位 · 2025-12-06T02:38:57Z
GPT-5与数学发现的未来

加州大学洛杉矶分校的Ryu教授利用GPT-5探索未解数学问题,发现其在创意生成和研究加速方面的潜力。尽管模型偶尔出错,但它帮助Ryu迅速排除无效思路,推动了复杂问题的解决。Ryu认为,AI与人类合作能显著提升研究效率,未来将继续在数学研究中应用AI。

GPT-5与数学发现的未来

OpenAI
OpenAI · 2025-11-24T00:00:00Z
有限域上的新Nikodym集合构造

我在arXiv上传了论文《有限域上的新Nikodym集合构造》。该研究基于与他人合作,探讨使用AlphaEvolve等工具解决数学问题。我们专注于构造尽可能小的Nikodym集合,提出了一种新的构造方法和改进的界限。

有限域上的新Nikodym集合构造

What's new by TerryTao
What's new by TerryTao · 2025-11-12T15:53:53Z
大规模数学探索与发现

博格丹·乔治耶夫等人发表论文《大规模数学探索与发现》,介绍与谷歌Deepmind合作的AlphaEvolve工具。该工具通过进化计算优化数学问题,展现出比传统方法更优的规模和鲁棒性。在67个数学问题的实验中,AlphaEvolve在多个领域取得积极成果,但在数论问题上表现不佳。

大规模数学探索与发现

What's new by TerryTao
What's new by TerryTao · 2025-11-06T03:36:56Z

Langchain与MCP的结合增强了工具的功能。Langchain 1.0版本统一了代理创建方式,简化了使用MCP工具的过程。文章展示了如何通过标准I/O和服务器发送事件(SSE)两种模式利用MCP服务器解决数学问题,并提供了示例代码。这一集成提升了Langchain代理的灵活性和可扩展性。

langchain + MCP:如虎添翼

鸟窝
鸟窝 · 2025-10-31T16:00:00Z

谷歌AI Ultra订阅者现在可以在Gemini应用中使用Deep Think工具。该工具通过并行思维解决复杂问题,特别在编码和科学发现方面表现出色。Deep Think经过改进,能够更快地处理复杂数学问题,并在2025年国际数学奥林匹克中达到铜牌水平。用户可通过Gemini应用中的提示栏启用该工具。

在Gemini应用中尝试Deep Think

Google DeepMind Blog
Google DeepMind Blog · 2025-10-23T18:54:19Z
ChatGPT-5能否提供高级数学的证明?

本文探讨了GPT-5在解决中高级数学问题方面的能力,特别是线性方程组的解法和数学证明的构建。GPT-5在AIME 2025国际会议上取得了94.6%的数学问题解决成功率,展示了其在逻辑推理和分析方面的显著进步。尽管回应风格仍显机械,但在数学证明的结构和逻辑上表现出色。

ChatGPT-5能否提供高级数学的证明?

MachineLearningMastery.com
MachineLearningMastery.com · 2025-10-07T11:00:29Z
这个“智能助手”帮助大型语言模型在文本与代码之间切换

MIT研究人员开发了CodeSteer,一个智能助手,帮助大型语言模型(LLMs)在代码与文本生成之间切换,从而提高其在数学问题上的准确性。研究表明,CodeSteer显著提升了LLMs解决复杂任务的能力,未来将进一步优化提示过程。

这个“智能助手”帮助大型语言模型在文本与代码之间切换

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2025-07-17T04:00:00Z

Robinhood CEO Vlad Tenev与Tudor Achim联合创立了人工智能初创公司Harmonic AI,专注于解决复杂数学问题,目标是构建超越人类的数学能力AI系统。Harmonic AI已完成B轮融资,估值接近9亿美元,致力于实现通用人工智能(AGI)。

美国版梁文锋来了

量子位
量子位 · 2025-07-11T06:53:14Z

MathFusion通过顺序、并行和条件三种融合策略提升大语言模型在数学问题上的能力,利用45K合成指令使准确率提高18%。该方法有效捕捉问题间深层联系,展现出优越的数据效率和性能,适用于更复杂的数学问题。

大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背 | MathFusion

量子位
量子位 · 2025-06-17T08:30:55Z

中国女孩洪乐潼创立的AI公司Axiom专注于数学问题解决,目标估值为3-5亿美元。她是斯坦福大学的数学博士,曾获多项奖学金,计划为对冲基金提供数学模型支持。

00后中国女孩0产品创业实现3亿估值:斯坦福数学博士的AI量化野心

量子位
量子位 · 2025-06-04T06:33:55Z

AlphaEvolve是一个基于大型语言模型的进化编码代理,旨在发现和优化算法。它结合了创意问题解决能力和自动评估器,提升了谷歌的数据中心效率、芯片设计和AI训练。AlphaEvolve在数学和计算领域取得了显著进展,包括发现更快的矩阵乘法算法,并在多个开放数学问题上取得突破,展现出广泛的应用潜力。

AlphaEvolve:一个基于Gemini的编码代理,用于设计先进算法

Google DeepMind Blog
Google DeepMind Blog · 2025-05-14T14:59:00Z

本文提出了FormalMATH,一个包含5560个经过形式验证的数学问题的大型基准,旨在提升人工智能的形式数学推理能力。研究通过人机协作的自动形式化流程,降低了专业标注成本,并揭示了当前语言模型在形式证明中的局限性,为未来研究指明了方向。

FormalMATH: Benchmarking Formal Mathematical Reasoning of Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-05T00:00:00Z
DeepSeek-Prover-V2:形式化数学推理的范式突破

形式化定理证明在数学中至关重要,但面临人类认知和机器可解释性挑战。DeepSeek-Prover-V2通过神经定理证明技术,提升了形式化推理能力,达到了88.9%的通过率,标志着数学智能的新纪元。该模型采用递归子目标分解和强化学习,显著提高了证明效率,未来有望解决更复杂的数学问题。

DeepSeek-Prover-V2:形式化数学推理的范式突破

我爱自然语言处理
我爱自然语言处理 · 2025-05-01T23:16:17Z
本地安装DeepSeek-Prover-V2的逐步指南

DeepSeek-Prover-V2是DeepSeek推出的AI模型,旨在通过Lean 4编写正式证明,解决复杂数学问题。它将大问题分解为小步骤,利用DeepSeek-V3的推理能力,适用于高中到大学的数学定理。该模型支持多种主题,MiniF2F测试通过率为88.9%,是数学自动化和正式推理的有效工具。

本地安装DeepSeek-Prover-V2的逐步指南

DEV Community
DEV Community · 2025-05-01T12:25:13Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码