小红花·文摘

人工智能，特别是大型语言模型的进展正在加速。研究通过奥林匹克竞技场评估模型的认知推理能力，发现即使是先进的GPT-4o，其准确率也仅为39.97%。OlympiadBench基准显示，最佳模型GPT-4V在物理推理方面得分较低，揭示了当前AI在复杂推理中的局限性。此外，研究还探讨了GPT-3和Turbo-GPT3.5在职业技能认证中的表现，显示出其潜力。