PutnamBench: 在 Putnam 数学竞赛上评估神经定理证明器
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
PutnamBench是一个多语言基准测试,用于评估神经定理证明器解决竞赛数学问题的能力。它包含了640个定理的1697个手工构造形式化的表述,并用Lean 4和Isabelle进行了全部定理的形式化。该基准测试用于评估几种已有的神经和符号定理证明器,这些方法只能解决很少一部分的PutnamBench问题。
🎯
关键要点
- PutnamBench 是一个多语言基准测试,用于评估神经定理证明器解决竞赛数学问题的能力。
- 基准测试包含来自北美顶级本科数学竞赛的 640 个定理,共 1697 个手工构造的形式化表述。
- 所有定理均使用 Lean 4 和 Isabelle 进行了形式化,部分定理还进行了 Coq 形式化。
- 该基准测试用于评估几种已有的神经和符号定理证明器,这些方法只能解决很少一部分的 PutnamBench 问题。
- PutnamBench 被确立为神经定理证明研究中的一个具有挑战性的开放问题。
🏷️
标签
➡️