小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
【公益译文】2026年AI指数报告(四)

AI模型在编码、数学、金融和法律等领域的能力不断提升。基准测试显示,模型在解决复杂任务方面的表现差异显著,尤其在数学证明和法律推理中仍面临挑战。尽管在某些领域取得进展,整体准确率仍未达到理想水平,反映出专业知识应用的复杂性。

【公益译文】2026年AI指数报告(四)

绿盟科技技术博客
绿盟科技技术博客 · 2026-06-10T09:25:23Z
5篇AI生成的数学论文被接收!00后创始人洪乐潼融资14个亿

初创公司Axiom Math提交了8篇AI生成的数学论文,其中5篇已通过同行评审。创始人洪乐潼在MIT获得双学位后退学创业,AxiomProver系统能够生成形式化证明并与人类数学家合作。该公司的目标是打造自我改进的超级智能推理器,已解决多个数学难题,并扩展到博弈论和经济学领域。

5篇AI生成的数学论文被接收!00后创始人洪乐潼融资14个亿

量子位
量子位 · 2026-05-28T08:11:40Z
留给人类数学家的悬赏不多了!谷歌DeepMind一口气解决9道埃尔德什问题

谷歌DeepMind的AlphaProof Nexus成功解决了多个埃尔德什数学难题,包括56年未解的Erdős #12。该系统利用智能体框架和中国剩余定理等数学工具,证明了9个问题和44个猜想,成本仅几百美元。研究表明,简单模型也能有效解题,未来数学难题的解决可能依赖于算力而非人类智慧。

留给人类数学家的悬赏不多了!谷歌DeepMind一口气解决9道埃尔德什问题

量子位
量子位 · 2026-05-26T08:20:39Z

OpenAI的模型成功推翻了平面单位距离问题的核心猜想,展示了深度推理能力,获得数学界高度评价。同时,文章讨论了AI在内容生成中的伦理问题,批评其未经授权使用原创内容,影响创作者生存。谷歌被指控通过直接答案削弱原创内容的价值,可能导致网络生态封闭化。

2026 05 22 HackerNews

介绍 on SuperTechFans
介绍 on SuperTechFans · 2026-05-21T23:57:50Z

Harmonic的创始人Vlad Tenev和Tudor Achim讨论了他们的AI系统Aristotle,该系统在2025年国际数学奥林匹克中获得金牌。Aristotle结合大型变换模型和蒙特卡洛树搜索策略,采用可验证的方法生成数学证明,能够自动验证输出,并在数学推理中表现出色。他们认为数学是理解世界的工具,未来AI将推动科学理论的进步,解决复杂问题。

数学超智能:Harmonic的Vlad和Tudor谈国际数学奥林匹克金牌与一切理论

Josherich的博客
Josherich的博客 · 2026-02-18T00:00:01Z

谷歌DeepMind的AlphaProof模型公开了技术细节,团队由10人组成,训练了8000万道数学题。该模型将数学证明视为游戏,利用强化学习和变体生成技术,在2024年国际数学奥林匹克中成功解决多道难题并获得金牌。尽管表现优异,但在处理新定义时仍面临挑战。

Nature公开谷歌IMO金牌模型技术细节!核心团队仅10人,一年给AI编出8000万道数学题训练

量子位
量子位 · 2025-11-13T07:55:51Z
ChatGPT-5能否提供高级数学的证明?

本文探讨了GPT-5在解决中高级数学问题方面的能力,特别是线性方程组的解法和数学证明的构建。GPT-5在AIME 2025国际会议上取得了94.6%的数学问题解决成功率,展示了其在逻辑推理和分析方面的显著进步。尽管回应风格仍显机械,但在数学证明的结构和逻辑上表现出色。

ChatGPT-5能否提供高级数学的证明?

MachineLearningMastery.com
MachineLearningMastery.com · 2025-10-07T11:00:29Z

谷歌DeepMind的Gemini Deep Think在国际数学奥林匹克中表现出色,完美解决了六道题中的五道,获得35分,达到了金牌标准。这一成就展示了AI在数学推理能力上的重大进步,Gemini模型能够从自然语言问题中生成严谨的数学证明。

谷歌DeepMind的Gemini Deep Think高级版本在国际数学奥林匹克中正式达到了金牌标准

Google DeepMind Blog
Google DeepMind Blog · 2025-07-21T16:30:00Z

陶哲轩发布了“喂饭级”AI教程,展示如何利用GitHub Copilot证明函数极限问题。他指出,尽管Copilot能迅速生成代码框架,但复杂的数学细节仍需人工调整,尤其是在处理不等式和绝对值时。他认为传统证明方法在复杂问题中更为有效。

陶哲轩“喂饭级”AI教程来了!只用GitHub Copilot证明函数极限问题

量子位
量子位 · 2025-05-20T07:57:07Z

本研究提出了一种神经符号方法,以提升大型语言模型在数学证明生成中的逻辑推理能力。通过检索类比问题和使用形式验证器,OpenAI o1模型的证明准确性提高了58%-70%。

面向可靠证明生成的LLM:一种神经符号方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z
开源人工智能突破使数学证明求解成功率提高52.8%

Goedel-Prover是一种新型开源自动定理证明模型,结合了大型语言模型与符号推理能力,在多个数学证明基准上成功率提高了52.8%。

开源人工智能突破使数学证明求解成功率提高52.8%

DEV Community
DEV Community · 2025-02-13T09:40:45Z
AI突破:自学习数学证明者生成并解决自己的定理

本文总结了研究论文《AI突破:自学习数学证明者生成并解决自己的定理》。提出了一种迭代自我对弈的方法,使大型语言模型生成训练数据,结合自动猜想和证明,显著提升定理证明能力,能够在复杂数学问题上实现无监督学习。

AI突破:自学习数学证明者生成并解决自己的定理

DEV Community
DEV Community · 2025-02-09T06:54:13Z

本文研究了一种算法,能够生成数学证明,表明训练的Transformer模型在特定输入下被“彻底压制”。该研究为Transformer模型的行为提供了界限,并通过计算辅助证明提供了操作性保证,实验验证了算法在单层Transformer上的有效性。这项工作为确保训练Transformer模型的可靠性迈出了重要一步。

Proving the Complete Suppression of Transformer Models by Designing Input

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-09T00:00:00Z
理所当然也能错,数学界震动:「上下铺猜想」被证伪

数学家们推翻了双层床猜想,证明在某些图中,从下铺到上铺的路径概率并不总是更高。这一结果挑战了数学直觉,强调了质疑假设的重要性,并引发了对数学证明本质的讨论。

理所当然也能错,数学界震动:「上下铺猜想」被证伪

机器之心
机器之心 · 2024-11-02T07:00:15Z

本文介绍了多种基于大型语言模型的数学证明方法,如NaturalProver、DSP、LeanDojo和DeepSeek-Prover-V1.5。这些方法通过结合自然语言和符号,提高了证明生成的质量和效率,展示了在定理证明中的应用潜力。实验结果显示,这些模型在准确性和自动化程度上均有显著提升。

ImProver:基于智能体的自动化证明优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z

AlphaProof和AlphaGeometry 2是新开发的数学推理AI系统,成功解决了国际数学奥林匹克中的四个问题,达到了银牌水平。AlphaProof利用强化学习和形式化语言进行数学证明,而AlphaGeometry 2在几何问题上表现显著提升。这两者的结合展示了AI在数学推理领域的潜力,未来有望帮助数学家探索新假设和解决复杂问题。

人工智能在解决国际数学奥林匹克问题中达到银牌水平

Google DeepMind Blog
Google DeepMind Blog · 2024-07-25T15:29:00Z

数学家陶哲轩在使用Lean4时发现一篇已发表论文中的错误,计划将语言模型与证明助手连接起来。Lean4主要用于写数学证明,也可用于编程。形式验证可减少软件开发中的错误。

数学家陶哲轩在形式证明帮助下发现论文中错误

极道
极道 · 2023-10-27T22:33:00Z

数学证明是通过逻辑步骤验证陈述正确性。验证基于观点和社区标准。数学中的范式变化是例子。数学证明是作者与数学社区协议。数学的危险在于忽视重要性。

为什么数学证明是一种社会契约?

极道
极道 · 2023-09-08T23:47:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码