Micropaper ·

一分钟读论文：《Where Do CoT Training Gains Land in LLM based Agents?》

💡 原文中文，约1000字，阅读约需3分钟。

📝

内容提要

一项研究探讨了思维链（CoT）训练在大语言模型中的作用，发现其主要提升了提示词动作的质量，而非推理能力。模型在训练中更依赖提示词，导致注意力和梯度集中于提示部分。研究提出了一种干预方法，通过选择性掩盖动作令牌监督，增强模型的域外泛化能力，使其在新任务中表现更佳。

🎯

🔎

研究表明，思维链（CoT）训练并未显著提升模型的推理能力，反而使模型对提示词的依赖性增强。这意味着在实际应用中，模型的表现可能受到提示词质量的限制，而非推理能力的提升。用户在使用大语言模型时，应关注提示词的设计，以确保模型能够有效执行任务。

研究提出的选择性掩盖动作令牌监督方法，能够有效提升模型的域外泛化能力。这一方法在新任务中表现出更强的适应性，表明在训练过程中，适当的干预可以帮助模型更好地从推理轨迹中提取信息。开发者在训练模型时，可以考虑引入类似的干预策略，以增强模型的鲁棒性。

分析显示，模型在训练时将大部分注意力和梯度资源集中在提示词上，而非推理轨迹。这种分配可能导致模型在复杂任务中表现不佳，尤其是在提示词质量不高的情况下。因此，研究者和开发者应重视提示词的优化，以提升模型的整体表现。

❓

CoT训练主要提升了提示词动作的质量，而非推理能力。

模型对提示词的依赖性增强，导致注意力和梯度集中于提示部分。

研究表明，提示词通常比推理轨迹长，占用了大部分的注意力和梯度资源。

该方法显著提升了模型的域外泛化能力，使其在新任务中表现更佳。

经过选择性掩盖训练的模型在未见过的任务中表现出更强的适应性和鲁棒性。

CoT训练并未显著优化推理轨迹，模型更依赖于提示词的质量。

🏷️