本研究提出了EssayJudge,旨在解决传统自动作文评分系统的特征依赖性和多模态处理不足的问题。通过多模态大型语言模型,EssayJudge实现了更精确的上下文评估,推动了该领域的发展。
本研究探讨了大型语言模型(LLMs)在推理和组合能力方面的局限性,并提出通过上下文评估其推理能力。结果表明,LLMs在75%的数据集上能够生成类人类的反应,但仍需改进,为理解和提升LLMs的表现提供了重要见解。
完成下面两步后,将自动完成登录并继续当前操作。