17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤 无法记答案的动态基准测试 研究人员发布了GameBoT评测基准,比较17款大模型在8款棋牌游戏中的表现。通过评估模型的思考过程,GameBoT提供了更细致的分析,避免了模型记忆答案。最终,o3-mini表现最佳,而DeepSeek R1在思考步骤中的得分较低,显示思考过程不够清晰。 GameBoT deepseek r1 o3 大模型 思考过程 棋牌游戏 游戏 评测