17款大模型PK八款棋牌游戏，o3-mini胜出，DeepSeek R1输在中间步骤

无法记答案的动态基准测试

研究人员发布了GameBoT评测基准，比较17款大模型在8款棋牌游戏中的表现。通过评估模型的思考过程，GameBoT提供了更细致的分析，避免了模型记忆答案。最终，o3-mini表现最佳，而DeepSeek R1在思考步骤中的得分较低，显示思考过程不够清晰。

GameBoT deepseek r1 o3 大模型思考过程棋牌游戏游戏评测