小红花·文摘

本研究评估了多个生成模型在教育对话中的表现，发现GPT-4在教师-学生对话中表现优于其他模型。研究强调了评估标准的重要性，特别是在教学技巧展示方面。通过微调和合成数据，提升了阿拉伯语语法错误纠正的性能，取得了新的最佳结果。