本研究探讨了生成性人工智能在教育反馈中的信任问题。91名本科生的实验表明,学生对AI和共同制作的反馈更为信任,而对人类反馈的信任度较低。此外,男性学生对所有反馈类型的评估普遍低于女性和非二元性别学生。这为教育机构调整反馈实践提供了依据。
本研究探讨了大型语言模型(LLM)在医学成像、法律和教育反馈等领域的应用。研究表明,LLM能够有效评估和生成报告,并与人类评估结果一致。通过新基准测试,揭示了LLM在评估任务中的能力和局限性,强调了进一步改进的必要性。MLLM-Bench作为新基准,旨在全面评估视觉语言模型的性能,推动开源社区的发展。
本文介绍了一种新颖的知识迁移框架,旨在加速大型语言模型的性能提升,保持效率。该框架支持无微调的批量生成,显著提高了准确性和处理速度。同时,研究探讨了大型语言模型在数据注释、自动作文评分和教育反馈中的应用潜力,展示了其在多任务中的优越表现。
该研究评估了GPT-4在教育反馈中的应用,结果显示57.4%的用户认为其反馈有帮助,尤其在编程教育中表现突出。GPT-4能够有效识别代码错误并提供结构化反馈,但仍需改进以避免误导信息。此外,研究探讨了其在课堂对话分析和教育材料生成中的潜力,显示出与人工评估高度一致性。
AcademicGPT 是为学术研究设计的模型,展示了在教育反馈、学生求助分类和开放文本评分等方面的潜力。研究表明,GPT-4 在课堂对话分析和教育材料生成中表现优异,显著提高了教学效率和评估一致性。
研究探讨了大型语言模型(LLMs),特别是GPT-4和GPT-3.5在自动作文评分中的有效性。结果表明,LLMs在准确性和一致性上优于传统评分模型,并能提升人工评分员的表现。GPT-4在多项评分任务中表现出色,结合思维链(CoT)可进一步提高评分准确性,显示出LLMs在教育反馈和学习表现预测中的重要潜力。
该研究探讨了大型语言模型(LLMs)在学生科学评估中的自动评分应用,特别是GPT-4相较于GPT-3.5的表现。结果表明,GPT-4在评分准确性上更优,结合思维链方法能进一步提升评分效果。此外,研究评估了LLMs在教育反馈中的潜力,展示了其在短答题和医疗任务中的应用前景。
完成下面两步后,将自动完成登录并继续当前操作。