本研究解决了大型语言模型(LLMs)是否真正具备推理能力的关键问题,提出了一种名为KUMO的生成评估框架,该框架结合LLMs与符号引擎,动态生成多样的推理任务以评估其推理能力。研究结果显示,许多LLMs在简单推理任务上的表现超过了大学生水平,而在复杂推理挑战中则达到了大学生的表现,证明KUMO作为评估LLMs推理能力的重要工具的有效性。
本研究提出KUMO框架,结合大型语言模型与符号引擎,动态生成推理任务以评估推理能力。结果表明,许多大型语言模型在简单推理任务上超越大学生,而在复杂任务中表现相当,验证了KUMO的有效性。