小红花·文摘

本研究分析了大型语言模型在系统性推理，特别是定性空间和时间推理方面的不足。通过新评估方法发现，尽管模型表现优于随机水平，但整体效果仍不理想，为提升模型推理能力提供了改进方向。