GPT-4在设计大学生作业评分与反馈中的应用:探索性研究
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
研究发现,GPT-4在宏观经济学任务中的评分一致性很高,ICC得分在0.94到0.99之间。内容和风格评分相关性为0.87,说明模型能区分这两个标准。即使风格评分下降,内容评分仍保持不变。研究建议进一步评估AI模型的稳健性和可靠性。
🎯
关键要点
- 研究探讨了GPT-4在宏观经济学任务中的评分一致性。
- ICC得分在0.94到0.99之间,表明评分一致性很高。
- 内容和风格评分的相关性为0.87,模型能区分这两个标准。
- 即使风格评分下降,内容评分仍保持不变。
- 研究建议进一步评估AI模型的稳健性和可靠性。
➡️