Evaluation of Large Language Models Based on GPT and Reasoning on Physics Olympiad Problems: Surpassing Human Performance and Its Impact on Educational Assessment

本研究解决了大型语言模型（LLMs）在物理教育中的具体问题，探讨了它们的解题能力对传统评估方法的影响。通过比较GPT-4o和推理优化模型o1-preview与德国物理奥林匹克参赛者的表现，发现LLMs在面对奥林匹克类型的物理问题时平均超越了人类，凸显了如何在教育中合理使用LLMs的必要性。

本研究探讨大型语言模型（LLMs）在物理教育中的应用，发现其在解决奥林匹克物理问题时优于人类，强调合理使用LLMs的重要性。

gpt models performance 人类表现合理使用大型语言模型奥林匹克物理物理教育