本研究提出了ProcessBench评估基准,旨在识别语言模型在数学推理中的错误步骤。评估结果显示,现有模型在复杂数学问题上表现不佳,而新模型在批判能力上与先进模型相当。
研究发现大语言模型在批判能力上存在挑战,尤其是自我批判。提出了一种自我检查的方法来提升模型表现,希望为理解和应用大语言模型的批判能力提供指导。
完成下面两步后,将自动完成登录并继续当前操作。