慢思考准确率反降30%!普林斯顿揭示思维链某些任务上失效的秘密
💡
原文中文,约1800字,阅读约需5分钟。
📝
内容提要
普林斯顿的研究发现,思维链(CoT)在某些任务中会降低模型表现,例如在生造词分类任务中,GPT-4的准确率从94%降至64.4%。研究指出,深思熟虑可能影响人类和模型的表现,尤其在隐式统计学习和面部识别等任务中。模型与人类能力的差异导致表现约束,需具体分析CoT的有效性。
🎯
关键要点
- 普林斯顿研究发现思维链(CoT)在某些任务中降低模型表现。
- 在生造词分类任务中,GPT-4的准确率从94%降至64.4%。
- 深思熟虑可能影响人类和模型的表现,尤其在隐式统计学习和面部识别等任务中。
- 研究团队通过类比CoT提示和人类语言思考,确定了影响表现的约束因素。
- 实验选择了隐式统计学习、面部识别和包含异常的数据分类等任务进行分析。
- 隐式统计学习中,人类在不使用语言描述时能更好地概括数据。
- 面部识别任务中,语言思考干扰视觉感知,导致识别能力下降。
- 包含异常的数据分类任务中,模型在使用CoT时表现不佳,需尝试更多轮次。
- 研究还发现某些任务中,CoT提示能提升大模型性能,如自然语言推理和空间直觉任务。
- 模型和人类的能力存在根本差异,影响其性能的约束条件不同。
- 研究将认知心理学与大模型之间建立了联系,可能为大模型领域提供更多见解。
➡️