谷歌AI解决IMO中84%的几何问题,o1一道没做对!Nature:AI已超过金牌得主平均水平
💡
原文中文,约2300字,阅读约需6分钟。
📝
内容提要
谷歌DeepMind的AlphaGeometry2成功解决了2000-2024年IMO竞赛中84%的几何问题,超越金牌得主的平均水平。在50道题中完成42道,显著提升了推理能力和算法效率。尽管表现优异,AlphaGeometry2尚未开源,未来将参加2025年澳大利亚的IMO竞赛。
🎯
关键要点
- 谷歌DeepMind的AlphaGeometry2成功解决了2000-2024年IMO竞赛中84%的几何问题。
- 在50道题中完成42道,超越金牌得主的平均水平。
- AlphaGeometry2相比于上一代多完成了15道题。
- Nature评价AlphaGeometry2达到了金牌得主水平,与顶级人类选手相当。
- AlphaGeometry2的四大升级包括扩展的领域专用语言、升级版的符号推理引擎DDAR2、全新的搜索算法SKEST和更强大的语言模型Gemini。
- 扩展的领域专用语言覆盖率从66%提高到88%,能够自动形式化和生成示意图。
- DDAR2的改进包括处理不同名称但相同坐标的点的能力、算法速度提升和代码实现的优化。
- SKEST算法通过多个配置的搜索树并行运行,提高了寻找证明路径的效率。
- Gemini语言模型采用三种训练方法,实验表明代数推理是解决几何问题的核心。
- 2025年IMO竞赛将在澳大利亚举行,AlphaGeometry2尚未开源。
➡️