小红花·文摘

该研究探索了大型语言模型（LLMs）在检测和解释逻辑错误方面的性能。通过分析学生和模型响应的混合方法，发现LLMs在逻辑错误识别方面有显著改进，认为两代LLMs在性能上优于学生。研究提出了将这些模型整合到计算机教育工具中的方法，并讨论了它们在支持学生学习编程方面的潜力。