本研究探讨了大型语言模型在西班牙语开放式问题自动评分中的有效性,结果显示最佳模型与提示策略组合在三级评分任务中的准确率超过95%,展现了其在教育应用中的潜力。
本研究提出了PyEvalAI,一个AI辅助评估系统,旨在提高STEM课程中教师批改作业的效率。该系统通过自动评分Jupyter Notebook,结合单元测试和本地语言模型,保护用户隐私并确保教师控制评分过程。案例研究表明,PyEvalAI显著提升了反馈速度和评分效率。
本研究提出了AERA Chat系统,旨在解决自动化教育评估中的解释性不足和标注成本高的问题。该系统利用大型语言模型进行自动评分和理由解释,从而提高评估的准确性和可用性。
本文探讨了利用BERT和机器学习方法提高学生阅读理解和科学写作自动评分的有效性。研究表明,多角度混合神经网络(HNN)在评分准确性和效率上优于传统方法,展示了机器学习在教育中的潜力。
本研究探讨了利用大型语言模型(LLMs)自动生成编程作业的测试套件,以提高教师效率。评估结果显示,LLM生成的测试套件能够有效识别有效解决方案,其全面性与教师创建的测试套件相当,同时揭示了问题陈述中的模糊性,提升了自动评分和教学设计的潜力。
本文提出了一种MiniLLM方法,通过Kullback-Leibler散度提炼小型语言模型,显著提升了模型性能。研究表明,学生模型在多个基准测试中优于传统神经网络,且参数显著减少,适合资源受限设备。该方法在教育环境中的自动评分中具有潜力,并解决了知识蒸馏的效率和灵活性问题。
本文介绍了一种结合大型语言模型和向量数据库的自动短答案评分系统,显著提高了评分的准确性。研究表明,尽管现有方法有所进展,但仍未达到人类评分的水平,未来需要探索人机结合的评分系统。
本文探讨了基于大型语言模型(LLMs)如GPT-4和GPT-3.5的自动评分方法,应用于开放性数学和科学问题的评估。研究表明,这些模型在评分准确性和一致性方面表现优越,能有效减少人力投入,提高教育评估的效率和质量。
作者在代码播放中集成了两个AI功能,以动画演示的方式呈现代码。第一个功能是“问问题,得答案”,学习者可以向AI提问并获得特定上下文的答案。第二个功能是自动评分的多项选择题,用于测试学习者对知识的理解程度。这些AI功能旨在辅助学习者以更互动和个性化的方式进行编码教育。
本文介绍了一种自动短答案评分框架,旨在提高K-12教育中自由文本问题的评分效率和准确性。该系统结合深度学习模型与人类评分者,能够实时记录并评分学生答案,显著降低成本并提升教育质量。研究表明,使用大型语言模型(如GPT-4)进行评分接近人类水平,具有重要的应用价值。
本研究探讨大型语言模型(LLMs)在教育中的应用,特别是其自动生成高质量问题的能力。研究表明,LLMs能够有效提升教学内容质量,尤其在口语学习和自动评分方面表现突出。此外,研究提出了一种将LLMs知识提炼为更小模型的方法,以便在资源受限设备上使用,展示了其在教育环境中的潜力与挑战。
本文介绍了AutoSAS,一个快速、可扩展的自动短答案评分系统,利用词汇多样性和内容重叠等特征,其评分结果与人类评分相当。研究表明,预训练的大型语言模型(如GPT-4)在自动评分中具有潜力,但仍需人工监督以确保准确性。近年来,自动短答案评分在K-12教育中取得了显著进展。
本文探讨了可穿戴设备在睡眠阶段识别中的应用,比较了深度学习与传统算法的效果。研究表明,基于智能手机的自动评分方法与手动评分一致,深度学习模型在睡眠监测中准确率高达93.33%。提出的SLEEPNET工具在大规模数据集上训练,准确性超过85%。这些研究为睡眠监测技术的发展提供了新思路。
本文介绍了一种新颖的知识迁移框架,旨在加速大型语言模型的性能提升,保持效率。该框架支持无微调的批量生成,显著提高了准确性和处理速度。同时,研究探讨了大型语言模型在数据注释、自动作文评分和教育反馈中的应用潜力,展示了其在多任务中的优越表现。
研究者提出了一种适用于ASAG数据集的弱监督注解过程和基于评分理由的神经符号模型,该方法在双语、多领域、多问题的训练设置中相比现有技术提高了均方根误差,为ASAG和教育NLP领域的未来研究提供了有前景的方向。
本研究提出了一种将大型语言模型(LLMs)知识提炼为更小、更高效且准确的神经网络的方法,以解决在资源受限设备上部署这些模型的挑战。通过对测试数据集的比较,结果显示提炼的学生模型能够比原始神经网络模型获得更高的准确率。此外,学生模型的参数大小相较于原始模型减小了100倍和10倍。该研究为自动评分在典型教育环境中的运用提供了潜力。
本研究提出了一种方法,将大型语言模型(LLMs)的知识提炼为更小、更高效且准确的神经网络,以在资源受限设备上部署模型。通过对测试数据集的比较,结果显示提炼的学生模型准确率更高,参数大小减小了100倍和10倍。该研究为自动评分在教育环境中的应用提供了潜力。
本文介绍了一种自动评分短问答题的方法,包括弱监督注解过程和基于评分理由的神经符号模型。实验证明该方法在ASAG数据集上的表现优于现有技术,为ASAG和教育NLP领域的未来研究提供了有前景的方向。
该研究使用GPT-3.5和GPT-4结合CoT对学生科学写作回答进行自动评分。研究发现,GPT-4在评分任务中表现更好,并且使用CoT可以提高评分准确性。
完成下面两步后,将自动完成登录并继续当前操作。