小红花·文摘

本研究提出了DocPuzzle基准，用于评估大型语言模型在长篇上下文中的推理能力。基准包含100个需要多步推理的专家级QA问题。评估结果表明，慢思维推理模型优于一般指令模型，而蒸馏推理模型与教师模型之间存在显著差距。