小红花·文摘

本研究提出CAFES框架，旨在提升自动作文评分的评估泛化性和多模态感知能力。通过协作多智能体的方式，显著提高了评分与人类判断的一致性，实验结果显示评分准确性提升了21%。

CAFES: A Collaborative Multi-Agent Framework for Multi-Granular Multimodal Essay Scoring

BriefGPT - AI 论文速递 ·

本研究提出了EssayJudge，旨在解决传统自动作文评分系统的特征依赖性、细微特质捕捉困难及多模态处理不足等问题。通过多模态大型语言模型，EssayJudge实现了更精确的上下文评估，推动了自动评分领域的研究进展。

EssayJudge: A Multi-Granular Benchmark for Assessing the Automated Essay Scoring Capabilities of Multimodal Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种混合评分方法，通过融入语言特征提升基于大语言模型的自动作文评分系统的效果。实验结果表明，该方法在多样化写作任务中优于现有基线模型，具有显著的评价潜力。

Improving the Effectiveness of LLM-Based Automatic Scoring with Linguistic Features

BriefGPT - AI 论文速递 ·

研究探讨了大型语言模型（LLMs），如 GPT-4 和 GPT-3.5，在自动作文评分（AES）中的有效性。实验表明，基于 LLM 的评分系统在准确性和一致性上优于传统模型，并提升了人工评分员的表现。GPT-4 在多项评分任务中表现更佳，结合思维链（CoT）可进一步提高评分准确性。研究强调了自动评分方法的可靠性依赖于上下文，指出在教育领域应用 LLM 的挑战与潜力。

GPT-4 能否单独满足自动作文评分？：基于评分人认知的比较判断方法

BriefGPT - AI 论文速递 ·

研究探讨了大型语言模型（LLMs），特别是GPT-4和GPT-3.5在自动作文评分中的有效性。结果表明，LLMs在准确性和一致性上优于传统评分模型，并能提升人工评分员的表现。GPT-4在多项评分任务中表现出色，结合思维链（CoT）可进一步提高评分准确性，显示出LLMs在教育反馈和学习表现预测中的重要潜力。

GPT-4 能进行 L2 分析性评估吗？

BriefGPT - AI 论文速递 ·