小红花·文摘

普林斯顿的研究发现，思维链（CoT）在某些任务中会降低模型表现，例如在生造词分类任务中，GPT-4的准确率从94%降至64.4%。研究指出，深思熟虑可能影响人类和模型的表现，尤其在隐式统计学习和面部识别等任务中。模型与人类能力的差异导致表现约束，需具体分析CoT的有效性。