本研究提出了ProcessBench评估基准,旨在识别语言模型在数学推理中的错误步骤。评估结果显示,现有模型在复杂数学问题上表现不佳,而新模型在批判能力上与先进模型相当。
完成下面两步后,将自动完成登录并继续当前操作。