Evaluation of Large Language Models Based on GPT and Reasoning on Physics Olympiad Problems: Surpassing Human Performance and Its Impact on Educational Assessment 本研究解决了大型语言模型(LLMs)在物理教育中的具体问题,探讨了它们的解题能力对传统评估方法的影响。通过比较GPT-4o和推理优化模型o1-preview与德国物理奥林匹克参赛者的表现,发现LLMs在面对奥林匹克类型的物理问题时平均超越了人类,凸显了如何在教育中合理使用LLMs的必要性。 本研究探讨大型语言模型(LLMs)在物理教育中的应用,发现其在解决奥林匹克物理问题时优于人类,强调合理使用LLMs的重要性。 gpt models performance 人类表现 合理使用 大型语言模型 奥林匹克物理 物理教育