本研究提出了“错误雷达”,用于评估多模态大型语言模型在复杂数学推理中的错误检测能力,特别关注错误步骤的识别和分类。实验结果显示,现有模型与教育专家的评估存在显著差距,表明该领域仍需进一步研究和改进。
完成下面两步后,将自动完成登录并继续当前操作。