小红花·文摘

本研究探讨了大型语言模型在西班牙语开放式问题自动评分中的有效性，结果显示最佳模型与提示策略组合在三级评分任务中的准确率超过95%，展现了其在教育应用中的潜力。

A Study on the Effectiveness of Large Language Models in Automatic Grading of Open-Ended Questions in Spanish

BriefGPT - AI 论文速递 ·

本研究提出了PyEvalAI，一个AI辅助评估系统，旨在提高STEM课程中教师批改作业的效率。该系统通过自动评分Jupyter Notebook，结合单元测试和本地语言模型，保护用户隐私并确保教师控制评分过程。案例研究表明，PyEvalAI显著提升了反馈速度和评分效率。

PyEvalAI: An AI-assisted Evaluation System for Instant Personalized Feedback on Jupyter Notebooks

BriefGPT - AI 论文速递 ·

本研究提出了AERA Chat系统，旨在解决自动化教育评估中的解释性不足和标注成本高的问题。该系统利用大型语言模型进行自动评分和理由解释，从而提高评估的准确性和可用性。

An Automated Explainable Educational Assessment System Based on Large Language Models

BriefGPT - AI 论文速递 ·

本文探讨了利用BERT和机器学习方法提高学生阅读理解和科学写作自动评分的有效性。研究表明，多角度混合神经网络（HNN）在评分准确性和效率上优于传统方法，展示了机器学习在教育中的潜力。

基于BERT的自动化课程衔接矩阵构建方法与可解释人工智能

BriefGPT - AI 论文速递 ·

本研究探讨了利用大型语言模型（LLMs）自动生成编程作业的测试套件，以提高教师效率。评估结果显示，LLM生成的测试套件能够有效识别有效解决方案，其全面性与教师创建的测试套件相当，同时揭示了问题陈述中的模糊性，提升了自动评分和教学设计的潜力。

Automating Autograding: Large Language Models as Test Suite Generators for Introductory Programming

BriefGPT - AI 论文速递 ·

本文提出了一种MiniLLM方法，通过Kullback-Leibler散度提炼小型语言模型，显著提升了模型性能。研究表明，学生模型在多个基准测试中优于传统神经网络，且参数显著减少，适合资源受限设备。该方法在教育环境中的自动评分中具有潜力，并解决了知识蒸馏的效率和灵活性问题。

LLM-Neo：高效的知识蒸馏用于大型语言模型

BriefGPT - AI 论文速递 ·

本文介绍了一种结合大型语言模型和向量数据库的自动短答案评分系统，显著提高了评分的准确性。研究表明，尽管现有方法有所进展，但仍未达到人类评分的水平，未来需要探索人机结合的评分系统。

超越评分：一种基于模块化检索增强生成的短答案自动评分系统及反馈

BriefGPT - AI 论文速递 ·

本文探讨了基于大型语言模型（LLMs）如GPT-4和GPT-3.5的自动评分方法，应用于开放性数学和科学问题的评估。研究表明，这些模型在评分准确性和一致性方面表现优越，能有效减少人力投入，提高教育评估的效率和质量。

在形成性数学评估中学习爱护边缘案例：利用AMMORE数据集和思维链提示来提高评分准确性

BriefGPT - AI 论文速递 ·

作者在代码播放中集成了两个AI功能，以动画演示的方式呈现代码。第一个功能是“问问题，得答案”，学习者可以向AI提问并获得特定上下文的答案。第二个功能是自动评分的多项选择题，用于测试学习者对知识的理解程度。这些AI功能旨在辅助学习者以更互动和个性化的方式进行编码教育。

代码播放中的新AI集成

DEV Community ·

本文介绍了一种自动短答案评分框架，旨在提高K-12教育中自由文本问题的评分效率和准确性。该系统结合深度学习模型与人类评分者，能够实时记录并评分学生答案，显著降低成本并提升教育质量。研究表明，使用大型语言模型（如GPT-4）进行评分接近人类水平，具有重要的应用价值。

降低成本：跨提示预微调以实现简短答案评分

BriefGPT - AI 论文速递 ·

本研究探讨大型语言模型（LLMs）在教育中的应用，特别是其自动生成高质量问题的能力。研究表明，LLMs能够有效提升教学内容质量，尤其在口语学习和自动评分方面表现突出。此外，研究提出了一种将LLMs知识提炼为更小模型的方法，以便在资源受限设备上使用，展示了其在教育环境中的潜力与挑战。

Dr.学院：评估大型语言模型在教育中提问能力的基准

BriefGPT - AI 论文速递 ·

本文介绍了AutoSAS，一个快速、可扩展的自动短答案评分系统，利用词汇多样性和内容重叠等特征，其评分结果与人类评分相当。研究表明，预训练的大型语言模型（如GPT-4）在自动评分中具有潜力，但仍需人工监督以确保准确性。近年来，自动短答案评分在K-12教育中取得了显著进展。

基于检索增强生成的生成式语言模型用于自动简答评分

BriefGPT - AI 论文速递 ·

本文探讨了可穿戴设备在睡眠阶段识别中的应用，比较了深度学习与传统算法的效果。研究表明，基于智能手机的自动评分方法与手动评分一致，深度学习模型在睡眠监测中准确率高达93.33%。提出的SLEEPNET工具在大规模数据集上训练，准确性超过85%。这些研究为睡眠监测技术的发展提供了新思路。

用于多功能睡眠行为监测的深度学习智能服裠

BriefGPT - AI 论文速递 ·

本文介绍了一种新颖的知识迁移框架，旨在加速大型语言模型的性能提升，保持效率。该框架支持无微调的批量生成，显著提高了准确性和处理速度。同时，研究探讨了大型语言模型在数据注释、自动作文评分和教育反馈中的应用潜力，展示了其在多任务中的优越表现。

基于注释指南的知识增强：用于提升教育文本分类的大型语言模型

BriefGPT - AI 论文速递 ·

本文提出了一种自动短答案评分（ASAG）框架，旨在提高K-12教育中自由文本问题的评分准确性。研究表明，结合手工特征和深度学习模型可以提升评分效果，并探讨了评分的信任与伦理问题。通过引入可解释性模型，增强了评分的透明度和可靠性，展示了该方法在教育领域的潜力。

超越人类主观性与错误：一种新的人工智能评分系统

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（LLMs）如GPT-4在教育中的应用，特别是在短答阅读理解、编程教育和课堂对话分析方面。研究发现，GPT-4在自动评分和反馈中表现良好，能够有效识别错误并提供有意义的解释，尽管某些领域仍需改进。这些发现展示了LLMs在教育评估中的潜力。

大型语言模型是否能胜任？一项实证研究评估 LLM 评分 K-12 教育中的简答题能力

BriefGPT - AI 论文速递 ·

本研究探讨了GPT-3.5和GPT-4模型在教育中的应用，特别是在自动评分和个性化反馈方面。研究表明，GPT-3.5在评分准确性上优于BERT模型，并能生成高质量反馈。GPT-4在教师与学生的对话中表现出色，但在识别真诚赞扬方面存在不足。未来研究将集中于提升提示工程和评估模型的教学能力。

如何提高？使用 GPT 凸显开放式回答中的期望和不期望的部分

BriefGPT - AI 论文速递 ·

LLaMA-Reviewer 是一个基于 LLaMA 模型的代码审查框架，通过高效微调实现了优越性能。研究表明，该自动评分系统在准确性和一致性上优于传统模型，并提出了改进反馈生成的框架，展示了在教育领域的潜力。

利用大型语言模型研究自动评分和反馈

BriefGPT - AI 论文速递 ·

研究表明，大型语言模型（LLMs），尤其是GPT-4和GPT-3.5，在自动评分和写作反馈方面表现优越，能够有效提升文章质量。通过多种提示策略和内容增强技术，个性化推荐性能得到改善。尽管手动提示仍是重要基线，但自动提示技术在不同任务中的应用显示出其潜力。

探索 LLM 联合作文评分和反馈生成的提示策略

BriefGPT - AI 论文速递 ·

本文探讨了生成型大型语言模型（如GPT-4）在教育领域的应用，特别是在短答阅读理解和自动评分方面的潜力。研究表明，GPT-4在生成高质量测试和评估学生表现方面表现优异，且与人工评分结果高度相关。文章还分析了现有评估方法的不足，提出了新的评分系统RWQ-Elo，并强调了大型语言模型在教育反馈中的重要性和挑战。

大型语言模型自动生成与评估阅读理解测试题

BriefGPT - AI 论文速递 ·