研究探讨了大型语言模型(LLMs),如 GPT-4 和 GPT-3.5,在自动作文评分(AES)中的有效性。实验表明,基于 LLM 的评分系统在准确性和一致性上优于传统模型,并提升了人工评分员的表现。GPT-4 在多项评分任务中表现更佳,结合思维链(CoT)可进一步提高评分准确性。研究强调了自动评分方法的可靠性依赖于上下文,指出在教育领域应用 LLM 的挑战与潜力。
研究探讨了大型语言模型(LLMs),特别是GPT-4和GPT-3.5在自动作文评分中的有效性。结果表明,LLMs在准确性和一致性上优于传统评分模型,并能提升人工评分员的表现。GPT-4在多项评分任务中表现出色,结合思维链(CoT)可进一步提高评分准确性,显示出LLMs在教育反馈和学习表现预测中的重要潜力。
完成下面两步后,将自动完成登录并继续当前操作。