NPHardEval: 复杂类别下大型语言模型推理能力的动态评估基准

📝

内容提要

本研究引入了一个名为 NPHardEval 的新基准,旨在评估大型语言模型(LLMs)的推理能力。通过比较 LLMs 在复杂类别上的表现,提供了对 LLMs 推理能力的客观且严格的观点。此基准通过 900 个算法问题的广泛谱系评估 LLMs 的推理能力,从 NP-Hard 复杂类别扩展到以下较低的复杂类别,并通过每月更新数据点来减轻 LLMs 过拟合的风险,促进更准确可靠的能力评估。

🏷️

标签

➡️

继续阅读