小红花·文摘

本文探讨了大型语言模型（LLMs）在逻辑推理和解谜任务中的能力，指出它们在复杂推理方面与人类存在显著差距，尤其在多步骤推理和非单调逻辑上表现不佳，强调需要新的策略和数据集来提升推理能力。