DeepMind开源了形式化数学猜想库,收录经典数学猜想,鼓励用户贡献新猜想、改进引用或修复错误。陶哲轩支持该库,认为形式化表述是利用自动化工具解决开放性问题的重要步骤。
FormalMATH发布了5560道数学题的基准测试,以评估AI模型的数学推理能力。最佳模型的成功率仅为16.46%,显示出在严格逻辑推导方面的困难。研究团队提出了自动化流程以提高效率,并呼吁学术界共同推动形式化数学推理技术的发展。
完成下面两步后,将自动完成登录并继续当前操作。