小红花·文摘

本研究提出了ProcessBench评估基准，旨在识别语言模型在数学推理中的错误步骤。评估结果显示，现有模型在复杂数学问题上表现不佳，而新模型在批判能力上与先进模型相当。