verified-ledger项目利用Lean 4和Rust进行形式化验证与模糊测试,以确保账本系统的安全性和正确性。通过对比Rust实现与Lean模型的输出,识别潜在漏洞。该项目适合希望在高可靠性系统中引入形式化验证的开发者。
麻省理工学院数学系的David Roe和Andrew Sutherland等人获得AI数学资助,旨在通过连接LMFDB和Lean4数学库,推动自动定理证明的发展。他们的项目将使未正式证明的数学结果在mathlib中可用,从而促进数学研究和发现。
DeepSeek发布了DeepSeek-Prover-V2,这是一个专为Lean 4形式定理证明设计的开源大语言模型,基于DeepSeek-V3,旨在通过递归策略解决复杂定理。研究团队引入了ProverBench基准,测试结果显示该模型在AIME问题上表现良好,但专家对实现细节表示担忧。
本文介绍了DeepSeek-Prover模型的开发,旨在通过生成大量形式化数学证明数据来提高自动定理证明的效率。该模型结合大型语言模型(LLM)和Lean 4验证器,自动生成和验证数学问题的证明,解决了传统方法的复杂性和效率问题。通过迭代优化,DeepSeek-Prover逐步提升了证明的质量和准确性。
本研究提出了FANS框架,旨在解决大语言模型在自然语言数学推理中的不足。通过将数学问题转化为Lean4定理并验证答案,显著提高了答案选择的准确性。
本研究提出了MA-LoT框架,解决了单一大型语言模型在形式证明中的不足。该框架是首个多智能体Lean4形式定理证明系统,通过结构化互动和长链思维,MiniF2F-Test数据集的准确率达到54.51%,显著优于现有方法,展示了更深的推理能力。
本文介绍了LeanDojo,一个开源的证明环境,提供有价值的前提数据,以便于选取前提。使用此数据,开发了ReProver,第一个增加检索功能的证明程序。实验结果表明,ReProver非常有效。
DeepSeek-Prover-V1.5是一个结合了强化学习和蒙特卡洛树搜索的证明生成模型,提高了证明生成的效率和准确性。该模型在Lean 4的形式定理证明中表现优于其他开源模型。它采用了统一的方法,结合了证明步骤生成和整体证明生成,并且通过截断和恢复机制无缝地集成了中间策略状态。该模型还利用了无奖励探索算法和新的蒙特卡洛树搜索算法来提高证明搜索效率。评估结果显示,DeepSeek-Prover-V1.5在miniF2F和ProofNet数据集上相比之前的模型实现了更高的通过率。
本研究提出了DeepSeek-Prover-V1.5,一个用于Lean 4的开源语言模型,优化了定理证明的效率问题。模型采用了强化学习方法和RMaxTS变体,生成多样化的证明路径。在基准测试中,该模型在中学和本科水平上取得了显著的成绩提升,展示了其在推理任务中的潜在影响。
PutnamBench是一个多语言基准测试,用于评估神经定理证明器解决竞赛数学问题的能力。它包含了640个定理的1697个手工构造形式化的表述,并用Lean 4和Isabelle进行了全部定理的形式化。该基准测试用于评估几种已有的神经和符号定理证明器,这些方法只能解决很少一部分的PutnamBench问题。
本文介绍了作者在Lean 4中证明引理的过程,通过构建人类可读的证明蓝图并转化为不等式链,使用Lean的calc策略填充蓝图,并通过一系列的sorry逐步证明每个不等式。作者总结了使用蓝图规划证明过程的好处,并认为AI自动填充sorry是一个现实的近期目标。
Since the release of my preprint with Tim, Ben, and Freddie proving the Polynomial Freiman-Ruzsa (PFR) conjecture over , I (together with Yael Dillies and Bhavik Mehta) have started a...
数学家陶哲轩在使用Lean4时发现一篇已发表论文中的错误,计划将语言模型与证明助手连接起来。Lean4主要用于写数学证明,也可用于编程。形式验证可减少软件开发中的错误。
完成下面两步后,将自动完成登录并继续当前操作。