大型语言模型中的复杂推理生成评估

本研究解决了大型语言模型（LLMs）是否真正具备推理能力的关键问题，提出了一种名为KUMO的生成评估框架，该框架结合LLMs与符号引擎，动态生成多样的推理任务以评估其推理能力。研究结果显示，许多LLMs在简单推理任务上的表现超过了大学生水平，而在复杂推理挑战中则达到了大学生的表现，证明KUMO作为评估LLMs推理能力的重要工具的有效性。

本研究提出KUMO框架，结合大型语言模型与符号引擎，动态生成推理任务以评估推理能力。结果表明，许多大型语言模型在简单推理任务上超越大学生，而在复杂任务中表现相当，验证了KUMO的有效性。

KUMO框架大型语言模型推理任务推理能力有效性