DeepSeek发布了DeepSeek-Prover-V2,这是一个专为Lean 4形式定理证明设计的开源大语言模型,基于DeepSeek-V3,旨在通过递归策略解决复杂定理。研究团队引入了ProverBench基准,测试结果显示该模型在AIME问题上表现良好,但专家对实现细节表示担忧。
本研究提出了一种“层次注意力”正则化方法,以提升大语言模型在形式定理证明中的表现。实验结果显示,该方法在miniF2F和ProofNet上的证明成功率分别提高了2.05%和1.69%,并降低了证明复杂性。
本研究提出Kimina-Prover Preview,旨在提高传统形式定理证明的效率。该模型模仿人类解题策略,在miniF2F基准测试中表现达到80.7%,展现出良好的样本效率和可扩展性,具有在形式验证与非正式数学直觉之间架起桥梁的潜力。
完成下面两步后,将自动完成登录并继续当前操作。