EssayJudge: A Multi-Granular Benchmark for Assessing the Automated Essay Scoring Capabilities of Multimodal Large Language Models

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了EssayJudge,旨在解决传统自动作文评分系统的特征依赖性、细微特质捕捉困难及多模态处理不足等问题。通过多模态大型语言模型,EssayJudge实现了更精确的上下文评估,推动了自动评分领域的研究进展。

🎯

关键要点

  • 本研究提出了EssayJudge,旨在解决传统自动作文评分系统的特征依赖性问题。
  • EssayJudge能够捕捉细微特质,克服传统系统在这方面的困难。
  • 该系统利用多模态大型语言模型,实现了更精确的上下文评估。
  • 研究揭示了当前多模态大型语言模型在自动评分表现上的不足,尤其是在话语层面特征上。
  • EssayJudge推动了自动评分领域的进一步研究进展。
➡️

继续阅读