小红花·文摘

研究探讨了大型语言模型（LLMs），如 GPT-4 和 GPT-3.5，在自动作文评分（AES）中的有效性。实验表明，基于 LLM 的评分系统在准确性和一致性上优于传统模型，并提升了人工评分员的表现。GPT-4 在多项评分任务中表现更佳，结合思维链（CoT）可进一步提高评分准确性。研究强调了自动评分方法的可靠性依赖于上下文，指出在教育领域应用 LLM 的挑战与潜力。

GPT-4 能否单独满足自动作文评分？：基于评分人认知的比较判断方法

BriefGPT - AI 论文速递 ·

研究探讨了大型语言模型（LLMs），特别是GPT-4和GPT-3.5在自动作文评分中的有效性。结果表明，LLMs在准确性和一致性上优于传统评分模型，并能提升人工评分员的表现。GPT-4在多项评分任务中表现出色，结合思维链（CoT）可进一步提高评分准确性，显示出LLMs在教育反馈和学习表现预测中的重要潜力。

GPT-4 能进行 L2 分析性评估吗？

BriefGPT - AI 论文速递 ·