本论文研究了语言模型在多步推理任务中是通过抄袭预训练语料库中记忆的答案还是通过多步推理机制来完成。通过新的探测方法,作者分析了GPT-2和LLaMA在不同任务上的表现,并展示了机械化探测器能够从模型的注意力中检测到推理树的信息,表明语言模型在许多情况下确实经历了多步推理过程。
本研究测试了大型语言模型的鲁棒性,发现预训练语料库和监督方法对模型的影响更大。同时,发现在代码上进行预训练的模型更好地推广,并受到思维链提示的益处。
本研究测试了大型语言模型的鲁棒性,发现预训练语料库和监督方法对模型变异性的影响更大。同时,发现在代码上进行预训练的模型更好地推广,并受到思维链提示的益处。
这篇论文研究了语言模型在多步推理任务中是通过抄袭预训练语料库中记忆的答案还是通过多步推理机制来完成这些任务的问题。研究人员通过引入一种新的探测方法发现,语言模型在大多数情况下确实经历了一个多步推理的过程。
完成下面两步后,将自动完成登录并继续当前操作。