量子位 ·

17款大模型PK八款棋牌游戏，o3-mini胜出，DeepSeek R1输在中间步骤

💡 原文中文，约4800字，阅读约需12分钟。

📝

内容提要

研究人员发布了GameBoT评测基准，比较17款大模型在8款棋牌游戏中的表现。通过评估模型的思考过程，GameBoT提供了更细致的分析，避免了模型记忆答案。最终，o3-mini表现最佳，而DeepSeek R1在思考步骤中的得分较低，显示思考过程不够清晰。

🎯

🔎

GameBoT通过评估大模型在棋牌游戏中的中间思考过程，提供了比传统评测更细致的分析。这种方法不仅关注最终结果，还能揭示模型在决策过程中的逻辑和推理能力，帮助研究人员更全面地理解模型的优缺点。

尽管DeepSeek R1在最终决策上表现良好，但其思考过程却显得冗长且不够清晰，导致中间步骤得分较低。这表明，模型在复杂问题的推理能力上仍需改进，尤其是在生成可读性强的中间步骤方面。

传统的LLM基准测试面临性能饱和和数据污染的问题，可能导致模型获得虚高的分数。GameBoT通过动态游戏环境的评测，避免了这些问题，为模型的真实能力提供了更可靠的评估依据。

❓

GameBoT评测基准旨在通过游戏评估大模型的推理能力，避免模型记忆答案，并提供更细致的分析。

o3-mini表现最佳，而DeepSeek R1在思考步骤中的得分较低，显示思考过程不够清晰。

GameBoT将复杂决策过程分解为2-3个子问题，评估模型在回答子问题基础上的最终决策。

传统LLM benchmark面临性能饱和和数据污染的问题，导致模型可能获得虚高的性能分数。

GameBoT的评测包括Surround、Pong、TicTacToe等8款游戏，采用淘汰制进行对抗赛。

评测中间步骤带来了更细粒度的评测和更高的可解释性，帮助了解模型能力的优势和劣势。

🏷️