小红花·文摘

本研究探讨了生成性人工智能在教育反馈中的信任问题。91名本科生的实验表明，学生对AI和共同制作的反馈更为信任，而对人类反馈的信任度较低。此外，男性学生对所有反馈类型的评估普遍低于女性和非二元性别学生。这为教育机构调整反馈实践提供了依据。

Evaluating Undergraduate Students' Trust in AI, Human, and Co-Created Feedback

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（LLM）在医学成像、法律和教育反馈等领域的应用。研究表明，LLM能够有效评估和生成报告，并与人类评估结果一致。通过新基准测试，揭示了LLM在评估任务中的能力和局限性，强调了进一步改进的必要性。MLLM-Bench作为新基准，旨在全面评估视觉语言模型的性能，推动开源社区的发展。

BADGE：LLM 模型下的羽毛球报告生成与评估

BriefGPT - AI 论文速递 ·

本文介绍了一种新颖的知识迁移框架，旨在加速大型语言模型的性能提升，保持效率。该框架支持无微调的批量生成，显著提高了准确性和处理速度。同时，研究探讨了大型语言模型在数据注释、自动作文评分和教育反馈中的应用潜力，展示了其在多任务中的优越表现。

基于注释指南的知识增强：用于提升教育文本分类的大型语言模型

BriefGPT - AI 论文速递 ·

该研究评估了GPT-4在教育反馈中的应用，结果显示57.4%的用户认为其反馈有帮助，尤其在编程教育中表现突出。GPT-4能够有效识别代码错误并提供结构化反馈，但仍需改进以避免误导信息。此外，研究探讨了其在课堂对话分析和教育材料生成中的潜力，显示出与人工评估高度一致性。

开源语言模型的反馈能力评估：利用 GPT-4 作为评委帮助学生的能力

BriefGPT - AI 论文速递 ·

AcademicGPT 是为学术研究设计的模型，展示了在教育反馈、学生求助分类和开放文本评分等方面的潜力。研究表明，GPT-4 在课堂对话分析和教育材料生成中表现优异，显著提高了教学效率和评估一致性。

CourseGPT-zh：基于知识蒸馏的教育型大型语言模型与提示优化

BriefGPT - AI 论文速递 ·

研究探讨了大型语言模型（LLMs），特别是GPT-4和GPT-3.5在自动作文评分中的有效性。结果表明，LLMs在准确性和一致性上优于传统评分模型，并能提升人工评分员的表现。GPT-4在多项评分任务中表现出色，结合思维链（CoT）可进一步提高评分准确性，显示出LLMs在教育反馈和学习表现预测中的重要潜力。

GPT-4 能进行 L2 分析性评估吗？

BriefGPT - AI 论文速递 ·

该研究探讨了大型语言模型（LLMs）在学生科学评估中的自动评分应用，特别是GPT-4相较于GPT-3.5的表现。结果表明，GPT-4在评分准确性上更优，结合思维链方法能进一步提升评分效果。此外，研究评估了LLMs在教育反馈中的潜力，展示了其在短答题和医疗任务中的应用前景。

一种基于 LLMs 的思维链提示方法用于评估学生科学形成性评价回答

BriefGPT - AI 论文速递 ·