小红花·文摘

本研究提出了“错误雷达”，用于评估多模态大型语言模型在复杂数学推理中的错误检测能力，特别关注错误步骤的识别和分类。实验结果显示，现有模型与教育专家的评估存在显著差距，表明该领域仍需进一步研究和改进。