小红花·文摘

本研究提出了一种自我博弈评价器(SPC)方法，旨在解决大语言模型(LLM)推理中缺乏高质量逐步监督的问题。通过对抗性自我博弈，SPC能够有效识别错误推理步骤，提高错误检测能力和准确率，显著超越现有基线，对LLM推理表现产生重要影响。