用于自动评分的日英句子翻译练习数据集
原文中文,约400字,阅读约需1分钟。发表于: 。自动评估句子翻译练习(STEs)的任务被提出,旨在为教育人员预设的每个评分标准对学生回答进行评分。使用一个包含 21 个问题和 3498 个学生回答的 STE 日语 - 英语数据集,作者展示了使用微调 BERT 和 GPT 模型的基线性能,结果表明微调 BERT 模型能以约 90% 的 F1 值对正确回答进行分类,但不到 80% 的不正确回答。此外,采用 few-shot 学习的 GPT...
这篇文章介绍了自动评估句子翻译练习(STEs)任务,使用微调BERT和GPT模型对学生回答进行评分。结果显示,微调BERT模型能以约90%的F1值对正确回答进行分类,但对不正确回答的分类准确率不到80%。few-shot学习的GPT模型的结果较微调BERT差,表明这个新任务对于大型语言模型来说是具有挑战性的问题。