EssayJudge: A Multi-Granular Benchmark for Assessing the Automated Essay Scoring Capabilities of Multimodal Large Language Models
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了EssayJudge,旨在解决传统自动作文评分系统的特征依赖性、细微特质捕捉困难及多模态处理不足等问题。通过多模态大型语言模型,EssayJudge实现了更精确的上下文评估,推动了自动评分领域的研究进展。
🎯
关键要点
- 本研究提出了EssayJudge,旨在解决传统自动作文评分系统的特征依赖性问题。
- EssayJudge能够捕捉细微特质,克服传统系统在这方面的困难。
- 该系统利用多模态大型语言模型,实现了更精确的上下文评估。
- 研究揭示了当前多模态大型语言模型在自动评分表现上的不足,尤其是在话语层面特征上。
- EssayJudge推动了自动评分领域的进一步研究进展。
➡️