人工智能,特别是大型语言模型的进展正在加速。研究通过奥林匹克竞技场评估模型的认知推理能力,发现即使是先进的GPT-4o,其准确率也仅为39.97%。OlympiadBench基准显示,最佳模型GPT-4V在物理推理方面得分较低,揭示了当前AI在复杂推理中的局限性。此外,研究还探讨了GPT-3和Turbo-GPT3.5在职业技能认证中的表现,显示出其潜力。
完成下面两步后,将自动完成登录并继续当前操作。