探索语言模型的多步推理能力的机械解释

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文探讨了语言模型在多步推理任务中是通过抄袭预训练语料库中记忆的答案还是通过多步推理机制来完成这些任务的疑问,并通过引入一种新的探测方法——机械化探测器,从模型的注意力模式中恢复推理树,分析了GPT-2和LLaMA在不同任务上的表现。结果表明,在许多情况下,语言模型确实在其架构中经历了一个多步推理的过程。