本研究提出了一种自我博弈评价器(SPC)方法,旨在解决大语言模型(LLM)推理中缺乏高质量逐步监督的问题。通过对抗性自我博弈,SPC能够有效识别错误推理步骤,提高错误检测能力和准确率,显著超越现有基线,对LLM推理表现产生重要影响。
完成下面两步后,将自动完成登录并继续当前操作。