小红花·文摘

本研究提出了ProcessBench评估基准，用于识别数学推理中的错误步骤。研究表明，现有模型在复杂数学问题上的表现不佳，而新模型在批判能力上与先进模型相当，推动了语言模型推理过程的评估研究。