小红花·文摘

该研究提出了一种新的数学评估方法，能够识别初学者和专家导师的误解，发现大型语言模型难以识别特定不完整知识的错误答案和误解，为增强大型语言模型数学推理能力提供了新机会。