小红花·文摘

AI 论文周报丨DeepSeekMath-V2/医学视频图像分割/3D 重建/Qwen3-VL……一文速览 AI 前沿

HyperAI超神经 ·

本文提出了HybridProver，一种结合战术生成与整体证明合成的双模型证明框架，旨在解决形式化方法在关键系统可靠性验证中的应用障碍。实验结果显示，其在miniF2F数据集上的成功率达到59.4%，超越了之前的记录，为定理证明的自动化提供了新的视角。

HybridProver: LLM-Driven Proof Synthesis and Enhanced Theorem Proving

BriefGPT - AI 论文速递 ·

本研究探讨中学数学向STEM教育转型的挑战，强调定理证明技术的应用，并总结国际研讨会成果，以促进计算机科学家、数学家与教育者之间的合作与理解。

Proceedings of the 13th International Workshop on Educational Software for Theorem Proving Components

BriefGPT - AI 论文速递 ·

人工智能学习数学：Kimina-Prover利用强化学习进行定理证明

DEV Community ·

本研究提出了一种新方法BFS-Prover，通过最佳优先搜索有效探索证据空间。该方法通过数据过滤和提升样本效率，在MiniF2F测试集上获得71.31分，显示出其在定理证明任务中的竞争力。

BFS证明器：可扩展的基于最佳优先树搜索的LLM自动定理证明

BriefGPT - AI 论文速递 ·

构建网页应用程序的现代开发框架 | 开源日报 No.475

开源服务指南 ·

本文介绍了LeanDojo，一个开源的交互式证明环境，以及其衍生的ReProver程序，能够有效选择定理前提。研究还提出了基于大型语言模型的数学推理工具，如InternLM-Math和Lean Copilot，展示了合成数据在定理证明中的潜力，并优化了形式证明的可读性和简洁性。此外，LeanAgent通过终身学习框架提升了高等数学定理证明的适应性和性能。

InternLM2.5-StepProver：通过专家迭代推动大规模LEAN问题的自动定理证明

BriefGPT - AI 论文速递 ·

本文探讨了基于高阶逻辑的定理证明研究及机器学习在其中的应用，包括CoqGym数据集、LeanDojo环境和ReProver程序。研究表明，利用大型语言模型和合成数据可以显著提升定理证明能力，Lean-STaR框架在miniF2F-test基准上表现优异，推动了定理证明的自动化进程。

泛图：一种用于先进定理证明、高级推理和数据提取的机器间交互界面

BriefGPT - AI 论文速递 ·

该研究探讨了大型语言模型在数学推理中的能力，提出了DELI和SCoP等方法以提高其准确性和鲁棒性。研究表明，模型对数学问题的表面形式敏感，微小变化会显著影响结果。通过新数据集和基准测试，评估了模型的推理能力，旨在推动深度学习在定理证明领域的发展。

MathGAP：在具有任意复杂证明的问题上的分布外评估

BriefGPT - AI 论文速递 ·

本文介绍了多种基于人工智能的定理证明方法，如LeanDojo、ReProver、TRIGO、DS-Prover和MUSTARD。这些方法通过数据生成和模型训练，提高了定理证明的效率和准确性，展示了AI在数学推理中的潜力。此外，研究提出了BAIT框架和DeepSeek-Prover-V1.5模型，优化了交互定理证明的性能，推动了相关领域的发展。

3D-Prover：基于行列式点过程的多样性驱动定理证明

BriefGPT - AI 论文速递 ·

本文介绍了多种基于大型语言模型的数学证明方法，如NaturalProver、DSP、LeanDojo和DeepSeek-Prover-V1.5。这些方法通过结合自然语言和符号，提高了证明生成的质量和效率，展示了在定理证明中的应用潜力。实验结果显示，这些模型在准确性和自动化程度上均有显著提升。

ImProver：基于智能体的自动化证明优化

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型在自动形式化数学定理中的应用，展示了其将自然语言数学问题转化为形式化说明的能力。研究表明，使用Codex和GPT-4等模型能够有效提高定理证明的准确率，并提出了LeanDojo和ReProver等工具，推动了自动化证明的研究和数学形式化的进展。

数学中的人工智能：在Lean4中执行数学形式化问题解决和定理证明

BriefGPT - AI 论文速递 ·

本文介绍了多个数学和形式验证的基准测试，如ProofNet、miniF2F和DafnyBench，旨在推动自动形式化和定理证明的研究。这些基准测试涵盖数学推理、自然语言处理和神经网络验证等领域，评估不同模型的性能和适应性，强调了改进的必要性和未来研究的潜力。

PutnamBench: 在 Putnam 数学竞赛上评估神经定理证明器

BriefGPT - AI 论文速递 ·

本文介绍了多种基于大型语言模型（LLM）和深度学习的定理证明方法，如DS-Prover、ReProver和MathGenie。这些方法通过优化数据集和训练策略，显著提高了定理证明的效率和准确性，尤其在数学推理任务中表现突出。此外，研究还探讨了自动化证明过程的框架和形式验证工具的开发，推动了该领域的进一步发展。

DeepSeek-Prover: 通过大规模合成数据推进 LLMs 中的定理证明

BriefGPT - AI 论文速递 ·

本文介绍了多种基于语言模型的定理证明方法，如NLProofS、GPT-f和LEGO-Prover，探讨了它们在自动定理证明中的应用及性能提升。这些方法通过生成相关步骤、模块化构建证明和利用合成数据，推动了数学研究的发展，并在正式数学社区中获得认可。

递归证明定理

BriefGPT - AI 论文速递 ·

本文介绍了定理驱动的问答数据集TheoremQA，评估AI模型在科学问题上的表现。研究发现，GPT-4在Program-of-Thoughts Prompting下的表现优于其他模型，达到51%。文章还探讨了机器学习在定理证明中的应用，特别是Coq系统的自动学习和生成定理的能力，展示了该领域的前景。

增强形式定理证明：一个用于训练 Coq 代码 AI 模型的综合数据集

BriefGPT - AI 论文速递 ·