本研究提出了ProcessBench评估基准,用于识别数学推理中的错误步骤。研究表明,现有模型在复杂数学问题上的表现不佳,而新模型在批判能力上与先进模型相当,推动了语言模型推理过程的评估研究。
完成下面两步后,将自动完成登录并继续当前操作。