量子位 ·

Nature公开谷歌IMO金牌模型技术细节！核心团队仅10人，一年给AI编出8000万道数学题训练

💡 原文中文，约3500字，阅读约需9分钟。

📝

内容提要

谷歌DeepMind的AlphaProof模型公开了技术细节，团队由10人组成，训练了8000万道数学题。该模型将数学证明视为游戏，利用强化学习和变体生成技术，在2024年国际数学奥林匹克中成功解决多道难题并获得金牌。尽管表现优异，但在处理新定义时仍面临挑战。

🎯

🔎

AlphaProof通过将数学证明视为游戏，采用强化学习和变体生成技术进行训练。这种方法不仅提高了模型的学习效率，还使其能够在面对复杂问题时生成相关变体，从而更好地掌握解决策略。这种创新的训练方式为AI在数学领域的应用开辟了新的可能性。

尽管AlphaProof在国际数学奥林匹克中表现出色，但在处理新定义时仍面临挑战。特别是在遇到定制化定义的情况下，系统的表现不佳。这表明，尽管技术进步显著，但在数学领域的广泛应用仍需克服特定的局限性。

AlphaProof的成功展示了AI在数学领域的潜力，但其对Lean定理证明器的依赖和数据有限性仍是主要挑战。未来的研究可以集中在如何增强模型的通用性和自我生成问题的能力，以推动AI在更广泛数学问题上的应用。

❓

AlphaProof模型的核心团队由约10人组成。

通过自动形式化过程，AlphaProof从约100万道自然语言数学题生成了约8000万道形式化问题。

AlphaProof成功解决了代数和数论的三道题，并获得金牌，其中P6是最难的题目。

AlphaProof在处理全新定义时表现不佳，尤其在定制化定义的情况下。

AlphaProof使用了一个30亿参数的编码器-解码器transformer模型作为核心。

AlphaProof将每个数学命题视为一个新的游戏关卡，AI通过选择策略推进证明。

🏷️