小红花·文摘

本文探讨了基于大型语言模型（LLMs）如GPT-4和GPT-3.5的自动评分方法，应用于开放性数学和科学问题的评估。研究表明，这些模型在评分准确性和一致性方面表现优越，能有效减少人力投入，提高教育评估的效率和质量。