DocPuzzle:评估现实长篇上下文推理能力的过程意识基准
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本研究提出了DocPuzzle基准,用于评估大型语言模型在长篇上下文中的推理能力。基准包含100个需要多步推理的专家级QA问题。评估结果表明,慢思维推理模型优于一般指令模型,而蒸馏推理模型与教师模型之间存在显著差距。
🎯
关键要点
-
本研究提出了DocPuzzle基准,用于评估大型语言模型在长篇上下文中的推理能力。
-
DocPuzzle基准包含100个需要多步推理的专家级QA问题。
-
该基准通过检查清单指导的过程分析减少猜测偏差。
-
评估结果显示,慢思维推理模型优于一般指令模型。
-
蒸馏推理模型与教师模型之间存在显著差距,揭示了维持推理能力泛化的挑战。
🏷️