LLMs 在高阶心理理论任务上达到成年人类表现
📝
内容提要
研究分析了大型语言模型 (LLMs) 是否已经具有更高阶的心智理论 (ToM) 社会心智能力,通过引入多阶心智问答手写测试集并将其用于与新收集的成年人基准进行比较,我们发现 GPT-4 和 Flan-PaLM 在总体上达到了成年水平或接近成年水平的 ToM 任务表现,并且 GPT-4 在第六阶推理上超过了成年人的表现。研究结果表明,模型规模和微调在实现 ToM...
➡️