量子位 ·

仅用提示词工程摘下IMO金牌！清华校友强强联手新发现，学术界不靠砸钱也能比肩大厂

💡 原文中文，约4400字，阅读约需11分钟。

📝

内容提要

清华校友杨林和黄溢辰通过优化提示词和自我验证流程，使Gemini 2.5 Pro在IMO测试中获得金牌，展示了学术界在资源有限情况下的创新能力。

🎯

🔎

这项研究展示了在资源有限的情况下，学术界依然能够通过创新的方法取得显著成果。杨林和黄溢辰的成功不仅是对Gemini 2.5 Pro的有效利用，更是对提示词工程和自我验证流程的深刻理解，表明学术界在AI领域的潜力不容小觑。

IMO测试被视为检验大语言模型推理能力的“试金石”，其复杂性远超传统数学基准。这一研究表明，成功通过IMO测试不仅需要强大的模型能力，还需要严谨的验证流程，强调了在数学推理中结构化方法的重要性。

研究表明，提示词的设计和优化对模型的表现有着显著影响。通过合理的提示词，模型能够更有效地进行逻辑推理和问题解决，这为未来的AI应用提供了重要的启示，尤其是在复杂任务的处理上。

❓

他们通过优化提示词和设计自我验证流程，使Gemini 2.5 Pro在IMO测试中成功解答了题目。

因为IMO测试考验模型的抽象思维和多步骤逻辑推理能力，相较于传统数学基准更具挑战性。

自我验证流程分为六个步骤，包括初始解决方案生成、自我改进、验证解决方案、审查错误报告、基于错误报告改进解决方案和接受或拒绝解决方案。

杨林和黄溢辰都是清华大学的校友，分别在加州大学和麻省理工学院深造，具备强大的学术基础。

研究表明，学术界可以通过优化方法和流程，在资源有限的情况下取得与大厂相当的成果。

杨林教授希望AI能在数学研究中扮演更重要的角色，尤其是在一些长期悬而未决的问题上。

🏷️