小红花·文摘 - 小红花技术领袖俱乐部

本文提出了一种新型数学过程评估代理StepMathAgent，旨在解决现有方法只关注最终答案的问题。该代理通过错误树进行评估，包含四个核心操作和四个扩展模块，实验结果表明其在准确性和适用性上优于现有方法，适用于多种场景。

StepMathAgent: A Step-Wise Agent for Evaluating Mathematical Processes through Tree-of-Error

BriefGPT - AI 论文速递 ·

教大型语言模型（LLMs）正确进行数学运算

教大型语言模型（LLMs）正确进行数学运算

DEV Community ·

本文探讨了基于大型语言模型（LLMs）如GPT-4和GPT-3.5的自动评分方法，应用于开放性数学和科学问题的评估。研究表明，这些模型在评分准确性和一致性方面表现优越，能有效减少人力投入，提高教育评估的效率和质量。

在形成性数学评估中学习爱护边缘案例：利用AMMORE数据集和思维链提示来提高评分准确性

BriefGPT - AI 论文速递 ·