该研究提出了一种新的数学评估方法,能够识别初学者和专家导师的误解,发现大型语言模型难以识别特定不完整知识的错误答案和误解,为增强大型语言模型数学推理能力提供了新机会。
完成下面两步后,将自动完成登录并继续当前操作。