本研究提出CAFES框架,旨在提升自动作文评分的评估泛化性和多模态感知能力。通过协作多智能体的方式,显著提高了评分与人类判断的一致性,实验结果显示评分准确性提升了21%。
本文提出了一种新的零-shot自动化作文评分方法——比较作文评分(LCES),旨在解决模型偏差和评分不一致的问题。通过成对比较任务,LCES 提高了评分的准确性和可扩展性,实验结果表明其优于传统评分方法。
研究发现,GPT-4在宏观经济学任务中的评分一致性很高,ICC得分在0.94到0.99之间。内容和风格评分相关性为0.87,说明模型能区分这两个标准。即使风格评分下降,内容评分仍保持不变。研究建议进一步评估AI模型的稳健性和可靠性。
完成下面两步后,将自动完成登录并继续当前操作。