本研究分析了大型语言模型在系统性推理,特别是定性空间和时间推理方面的不足。通过新评估方法发现,尽管模型表现优于随机水平,但整体效果仍不理想,为提升模型推理能力提供了改进方向。
完成下面两步后,将自动完成登录并继续当前操作。