本文探讨了语言模型在多步推理任务中是通过抄袭预训练语料库中记忆的答案还是通过多步推理机制来完成这些任务的疑问,并通过引入一种新的探测方法——机械化探测器,从模型的注意力模式中恢复推理树,分析了GPT-2和LLaMA在不同任务上的表现。结果表明,在许多情况下,语言模型确实在其架构中经历了一个多步推理的过程。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: