NYT-连接:一个看似简单的文本分类任务,令系统1思维者感到困惑
📝
内容提要
本研究针对大语言模型在深思熟虑推理能力方面的不足,提出了NYT-Connections,这是一系列简单的单词分类难题,旨在惩罚快速直觉思维。研究发现,即使是表现最好的LLM如GPT-4,其性能也比人类低近30%。此基准提供了一种独特的方式来评估LLM的推理能力。
➡️
本研究针对大语言模型在深思熟虑推理能力方面的不足,提出了NYT-Connections,这是一系列简单的单词分类难题,旨在惩罚快速直觉思维。研究发现,即使是表现最好的LLM如GPT-4,其性能也比人类低近30%。此基准提供了一种独特的方式来评估LLM的推理能力。