大型语言模型并不关心你的思维方式:连锁思维提示在主观任务中的失效原å›

本研究针对大型语言模型（LLM）在主观任务中链式思维提示失效的问题进行探讨。通过分析发现，链式思维提示（CoT）在复杂的主观领域，如情感和道德，表现出与上下文学习（ICL）相似的后验崩溃问题，即虽然启用了推理，但仍未能有效学习任务。该研究的主要发现表明，提升推理并未改善大型语言模型在复杂任务中的性能，反而显示出相似的固化现象。

该研究提出了CoTGenius框架，用于生成优质的CoT提示，增强大型语言模型的推理能力。通过微调Llama 2-Chat 7B和13B模型，得到了ChainLM模型，并采用步骤级辩论方法解决累积误差问题。实验证明，ChainLM模型在复杂推理问题上表现更好。