本研究提出CLR-Bench,旨在评估大型语言模型(LLMs)在大学级推理中的能力。研究发现,尽管GPT-4 turbo等模型在直接回答问题上表现良好,但在同时回答和推理方面的能力显著下降,显示出其推理能力亟待提升。
完成下面两步后,将自动完成登录并继续当前操作。