慢思考准确率反降30%!普林斯顿揭示思维链某些任务上失效的秘密

💡 原文中文,约1800字,阅读约需5分钟。
📝

内容提要

普林斯顿的研究发现,思维链(CoT)在某些任务中会降低模型表现,例如在生造词分类任务中,GPT-4的准确率从94%降至64.4%。研究指出,深思熟虑可能影响人类和模型的表现,尤其在隐式统计学习和面部识别等任务中。模型与人类能力的差异导致表现约束,需具体分析CoT的有效性。

🎯

关键要点

  • 普林斯顿研究发现思维链(CoT)在某些任务中降低模型表现。
  • 在生造词分类任务中,GPT-4的准确率从94%降至64.4%。
  • 深思熟虑可能影响人类和模型的表现,尤其在隐式统计学习和面部识别等任务中。
  • 研究团队通过类比CoT提示和人类语言思考,确定了影响表现的约束因素。
  • 实验选择了隐式统计学习、面部识别和包含异常的数据分类等任务进行分析。
  • 隐式统计学习中,人类在不使用语言描述时能更好地概括数据。
  • 面部识别任务中,语言思考干扰视觉感知,导致识别能力下降。
  • 包含异常的数据分类任务中,模型在使用CoT时表现不佳,需尝试更多轮次。
  • 研究还发现某些任务中,CoT提示能提升大模型性能,如自然语言推理和空间直觉任务。
  • 模型和人类的能力存在根本差异,影响其性能的约束条件不同。
  • 研究将认知心理学与大模型之间建立了联系,可能为大模型领域提供更多见解。
➡️

继续阅读