小红花·文摘

本研究提出CLR-Bench，旨在评估大型语言模型（LLMs）在大学级推理中的能力。研究发现，尽管GPT-4 turbo等模型在直接回答问题上表现良好，但在同时回答和推理方面的能力显著下降，显示出其推理能力亟待提升。