量子位 ·

慢思考准确率反降30%！普林斯顿揭示思维链某些任务上失效的秘密

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

普林斯顿的研究发现，思维链（CoT）在某些任务中会降低模型表现，例如在生造词分类任务中，GPT-4的准确率从94%降至64.4%。研究指出，深思熟虑可能影响人类和模型的表现，尤其在隐式统计学习和面部识别等任务中。模型与人类能力的差异导致表现约束，需具体分析CoT的有效性。

🎯

🔎

普林斯顿的研究揭示，思维链（CoT）在某些任务中可能导致模型表现下降，尤其是在隐式统计学习和面部识别等领域。这表明，深思熟虑并不总是有利，反而可能干扰模型的判断能力。

研究指出，大模型与人类在能力上存在根本差异，影响其表现的约束条件也不同。大模型在处理某些任务时，可能因其更强的工作记忆而表现更好，而人类则在无需语言描述的情况下更能概括数据。

在选择使用思维链的任务时，需谨慎考虑任务的特性。某些任务如自然语言推理和空间直觉，使用CoT提示可能提升模型性能，而在其他任务中则可能适得其反。具体情况需具体分析。

❓

思维链在生造词分类任务中降低了模型的表现，GPT-4的准确率从94%降至64.4%。

深思熟虑可能会降低人类和模型在某些任务上的表现，尤其是在隐式统计学习和面部识别等任务中。

思维链提示能提升大模型性能的任务包括自然语言推理、空间直觉和涉及工作记忆限制的任务。

普林斯顿的研究通过分析思维链在不同任务中的表现，揭示了心理学与大模型之间的联系，可能为大模型领域提供更多见解。

在面部识别任务中，语言思考会干扰视觉感知，导致识别能力下降。

在包含异常的数据分类任务中，模型使用CoT时会陷入试图总结规律的思维定式，导致需要更多尝试轮次。

🏷️