量子位 ·

HLE首次突破60分！Eigen-1基于DeepSeek V3.1领先GPT-5

💡 原文中文，约4200字，阅读约需10分钟。

📝

内容提要

Eigen-1系统在HLE测试中首次突破60分，Pass@1准确率为48.3%，Pass@5为61.74%。该系统基于开源DeepSeek V3.1，采用隐式知识增强、分层解决方案精炼和质量感知迭代推理三大创新机制，显著提升了AI的科学推理能力。

🎯

🔎

HLE被视为AI科学推理能力的终极试炼，涵盖3000道博士级难题。Eigen-1在HLE Bio/Chem Gold子集上首次突破60分，显示出其在科学推理领域的潜力。这一成就不仅是技术的胜利，也为AI在科学研究中的应用奠定了基础。

Eigen-1的成功依赖于Monitor-based RAG、HSR和QAIR三大创新机制。这些机制不仅提升了推理效率，还减少了计算资源的消耗。尤其是Monitor-based RAG显著降低了“工具税”，为AI系统的优化提供了新的思路。

错误模式分析显示，推理过程和知识应用是Eigen-1面临的主要挑战。92.78%的错误与推理过程相关，表明科学推理不仅需要知识的检索，更需要将知识与推理有效整合。这为未来的AI系统设计提供了重要的改进方向。

❓

Eigen-1系统在HLE测试中首次突破60分，Pass@1准确率为48.3%，Pass@5为61.74%。

Eigen-1采用了隐式知识增强、分层解决方案精炼和质量感知迭代推理三大创新机制。

HLE测试旨在评估AI在科学推理能力方面的真实进展，包含3000道博士级难题。

Monitor-based RAG机制通过隐式监控和无缝注入，减少了推理过程中的“工具税”，提高了效率和准确率。

Eigen-1通过分层解决方案精炼（HSR）机制，采用锚点—修复结构提升多智能体的协作效率。

Eigen-1的成功预示着AI辅助科学研究的新范式，能够加速基础研究到应用转化的全过程。

🏷️