小红花·文摘

本研究探讨大型语言模型（LLMs）的推理能力，提出KUMO评估框架，结合LLMs与符号引擎，动态生成推理任务。结果表明，LLMs在简单推理任务上超越大学生，而在复杂任务中表现相当，验证了KUMO的有效性。