LLM 和 BoW 的自动化课堂教学支持评估:将全局预测与具体反馈联系起来
原文中文,约400字,阅读约需1分钟。发表于: 。应用大语言模型来估计教学支持领域中的 CLASS 得分,使用零 - shot 提示和词袋模型对教师讲话的个别话语进行分类,通过实验发现自动估计方法准确性接近人际可靠性,并结合特征提取来提供教师可解释反馈。
本文评估了四个最先进的面向指令的大型语言模型在13项真实世界的临床和生物医学自然语言处理任务中的表现。结果显示,这些语言模型在大多数任务的零样本和少样本场景中已经接近最先进模型的性能,尤其在问答任务中表现出色。但是,分类和关系抽取任务的性能低于专门训练用于医学领域的模型。最后,没有一个语言模型在所有研究任务中都胜过其他模型,某些模型在特定任务中更适合。