小红花·文摘

本文介绍了一种新的评估方法，用于评估基于数学误解的大型语言模型（LLM）的数学推理能力。研究发现，LLMs难以识别与特定误解相对应的错误答案，并解释这些误解。这为增强LLMs数学推理能力提供了新机会，尤其在教育应用中开发学生模拟和专家辅导模型方面。