研究人员发布了GameBoT评测基准,比较17款大模型在8款棋牌游戏中的表现。通过评估模型的思考过程,GameBoT提供了更细致的分析,避免了模型记忆答案。最终,o3-mini表现最佳,而DeepSeek R1在思考步骤中的得分较低,显示思考过程不够清晰。
完成下面两步后,将自动完成登录并继续当前操作。