机器之心 ·

多元推理刷新「人类的最后考试」记录，o3-mini(high)准确率最高飙升到37％

💡 原文中文，约3000字，阅读约需8分钟。

📝

内容提要

DeepSeek R1模型在社交媒体上引起关注，尽管在数学和编程领域有所进展，但在国际数学奥林匹克等基准测试中表现不佳。研究者提出多元推理方法，结合多种模型和方法，显著提高了准确率。实验结果显示，IMO问题的准确率从33.3%提升至77.8%，HLE问题从8%提升至37%。通过强化学习和元学习，进一步优化了推理模型的性能。

🎯

关键要点

DeepSeek R1模型在社交媒体上引起关注，展示了类人的深度思考能力。
尽管在数学和编程领域有所进展，但在国际数学奥林匹克等基准测试中表现不佳。
研究者提出多元推理方法，结合多种模型和方法，显著提高了准确率。
IMO问题的准确率从33.3%提升至77.8%，HLE问题从8%提升至37%。
通过交互式定理证明器Lean和代码自动验证等方法，提升了推理模型的性能。
研究者发现多种模型、方法的数量与可验证问题性能之间呈正向关系。
多元推理方法聚合多个模型和方法，自动验证IMO和ARC问题的答案。
测试时模拟和强化学习生成额外信息，优化推理模型的表现。
研究者使用LLM和其他工具进行代码图的元学习，追踪pipeline运行。
实验结果显示，使用多元模型和方法显著提升了对ARC和HLE问题的解决能力。

🔎

延伸解读

多元推理方法的优势

研究者提出的多元推理方法通过结合多种模型和方法，显著提升了推理模型在复杂问题上的准确率。这种方法不仅提高了IMO和HLE问题的解决能力，还展示了在面对多样化问题时的灵活性和有效性。

强化学习与模拟的应用

在推理过程中，研究者利用强化学习和模拟技术生成额外信息，优化了模型的表现。这种方法能够有效地处理复杂的数学和编程问题，表明在未来的研究中，结合不同技术的综合应用将是提升模型性能的关键。

模型性能与计算资源的关系

文章中提到的第三个实证性 scaling law 指出，模型性能与使用的模型和方法数量呈正相关。这意味着在设计推理模型时，增加多样性和复杂性可能会带来更好的性能，尤其是在处理高难度问题时。

❓

延伸问答

DeepSeek R1模型的主要贡献是什么？

DeepSeek R1模型通过多元推理方法显著提高了在数学和编程领域的准确率，尤其是在IMO和HLE问题上。

多元推理方法是如何提高模型准确率的？

多元推理方法通过结合多种模型和方法，自动验证IMO和ARC问题的答案，从而提高了准确率。

实验结果显示了哪些具体的准确率提升？

IMO问题的准确率从33.3%提升至77.8%，HLE问题从8%提升至37%。

研究者使用了哪些工具来优化推理模型？

研究者使用了交互式定理证明器Lean和代码自动验证等工具来优化推理模型的性能。

多元推理方法的优势是什么？

多元推理方法的优势在于聚合多个模型和方法，能够自动验证答案，提高了对复杂问题的解决能力。

研究者发现了哪些与模型性能相关的规律？

研究者发现多种模型和方法的数量与可验证问题性能之间呈正向关系，这是基础语言模型的第三个实证性scaling law。

🏷️