小红花·文摘

香港科技大学教授通过实验测试AI眼镜在期末考试中的表现，结果显示该眼镜在30分钟内获得92.5分，超过95%的学生。这一现象引发了对传统教学评估体系的反思，尤其是AI在标准化考试中的优异表现使教育评估的有效性受到质疑。

港科大教授实测AI眼镜“作弊”：30分钟碾压95%的学生，把传统教学评估体系整破防了

量子位 ·

告别H1B焦虑 – 加拿大Express Entry DIY申请全攻略

Frank's Weblog ·

本研究提出了一种自动生成和筛选高质量模拟学生代理的流程，解决了现有模拟无法真实反映学习困难的问题，从而提高了模拟的准确性，为个性化学习和教育评估奠定了基础。

Research on Student Simulation and Metacognitive Development Based on Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种多模态聊天机器人，利用生成式人工智能满足高等教育的个性化学习需求。该系统结合文本互动与图像分析，分析学生反馈，提供课程评估，帮助教育者获得深入见解。

通过多模态方法增强高等教育中的生成式人工智能：个性化学习的研究

BriefGPT - AI 论文速递 ·

在人工智能时代关于教育中的作弊与不诚实问题

UX Magazine ·

该研究提出了一种人工智能赋能的大型语言模型框架（CAELF），解决了教育实践中互动反馈难以广泛应用的问题，显著提升了互动反馈的有效性，改善教育评估过程。

“我的分数是错的！”：一个可争辩的人工智能框架用于学生论文评估的互动反馈

BriefGPT - AI 论文速递 ·

IBM如何与Smarter Balanced共同塑造教育中的人工智能治理

IBM Blog ·

本文探讨了大型语言模型（LLMs）在回答问题时的性能提升方法，包括不确定性感知能力和重述与回答（RaR）策略。研究表明，通过优化提示和对抗性问答基准，LLMs能够更有效地处理复杂问题并提高准确性。此外，模型在面对质疑时的判断一致性也受到评估，提示语气对结果有显著影响。这些研究为教育领域的评估任务提供了重要支持。

我本可以这样问：改写无法回答的问题

BriefGPT - AI 论文速递 ·

该研究评估了OpenAI的GPT-3.5和GPT-4模型在心理测量学中的表现，发现GPT-4在一般描述下与人类相似，但在具体人口统计信息下表现较差。研究提出了一种自适应测试框架，以更准确地评估模型能力。GPT-4在主题知识、数理推理和编程方面表现优异，适用于教育评估。此外，研究还探讨了大型语言模型在评分开放式问题中的一致性和准确性，显示其在教育反馈中的潜力。

利用 LLM - 回答者进行项目评估：一项心理测量分析

BriefGPT - AI 论文速递 ·

本研究探讨了自动论文评分（AES）模型在低资源语言（如印地语）中的准确性、公平性和泛化能力。通过多尺度文章表示法和深度学习技术，提出了有效的评分算法，旨在提高评分效率和一致性，解决传统评分的挑战。研究结果表明，新文本表示法在长文本任务中表现优异，为教育评估提供了实用解决方案。

阿拉伯语中的自动作文评分：基于 BERT 系统的数据集和分析

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在控制文本难度方面的应用，特别是在语言学习者环境中。研究评估了少样本提示和强化学习等不同方法的效果，发现GPT-4与开源模型之间存在性能差距。通过精调和强化学习的结合，提出了CALM模型，其表现优于GPT-4。此外，研究还探讨了LLMs在教育评估中的潜力，强调提高模型适应性的必要性，以满足不同年龄和教育水平的需求。

使用 LLMs 生成具有不同可读性水平的教育材料

BriefGPT - AI 论文速递 ·