本研究探讨大型语言模型(LLMs)的推理能力,提出KUMO评估框架,结合LLMs与符号引擎,动态生成推理任务。结果表明,LLMs在简单推理任务上超越大学生,而在复杂任务中表现相当,验证了KUMO的有效性。
完成下面两步后,将自动完成登录并继续当前操作。