PutnamBench是一个多语言基准测试,用于评估神经定理证明器解决竞赛数学问题的能力。它包含了640个定理的1697个手工构造形式化的表述,并用Lean 4和Isabelle进行了全部定理的形式化。该基准测试用于评估几种已有的神经和符号定理证明器,这些方法只能解决很少一部分的PutnamBench问题。
本论文介绍了一种名为In-CLT的新的跨语言转移提示方法,通过构建演示例子来证明其在多语言基准测试中的可行性和性能提升。该方法平均比以前的方法提高了10到20个百分点,并探讨了词汇相似性和预训练语料库在跨语言转移方面的关系。
完成下面两步后,将自动完成登录并继续当前操作。