BriefGPT - AI 论文速递 ·

从感知到信念：探索大型语言模型中理解心智理论的前继推断

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文探讨了大型语言模型（LLMs）在理解他人心理状态（心智理论）方面的能力，提出了ToMBench评估框架和新方法。研究表明，GPT系列模型在心智理论任务中表现优于其他模型，社交推理能力接近人类水平。通过新评估范式T4D，模型在心理状态推断与行动的关联性上表现更佳。这些发现对LLMs的应用具有重要意义。

🎯

关键要点

引入ToMBench评估框架以高效评估大型语言模型（LLMs）的心智理论能力。
研究发现GPT系列模型在心智理论任务中表现优于其他模型，社交推理能力接近人类水平。
通过SimToM框架，改进了LLMs的推理能力，无需额外训练和大量提示微调。
提出SymbolicToM方法，通过显式符号表示跟踪多个角色的信念状态，提升了理解能力。
创建新的社交推理基准BigToM，评估LLMs的社交推理能力，发现GPT-4反映人类推理模式，但可靠性不足。
引入Thinking for Doing（T4D）评估范式，要求模型将心理状态推断与社交情境中的行动联系起来，提升GPT-4性能。

❓

延伸问答

大型语言模型如何评估其心智理论能力？

通过引入ToMBench评估框架，能够高效评估大型语言模型的心智理论能力。

GPT系列模型在心智理论任务中的表现如何？

研究发现GPT系列模型在心智理论任务中表现优于其他模型，社交推理能力接近人类水平。

什么是Thinking for Doing（T4D）评估范式？

T4D评估范式要求模型将心理状态推断与社交情境中的行动联系起来，以提升推理能力。

SymbolicToM方法的主要特点是什么？

SymbolicToM通过显式符号表示来跟踪多个角色的信念状态，提升了理解能力。

BigToM基准的目的是什么？

BigToM基准用于评估大型语言模型的社交推理能力，发现GPT-4反映人类推理模式但可靠性不足。

大型语言模型在理解他人心理状态方面存在哪些局限性？

大型语言模型在理解他人心理状态时缺乏对无关紧要或微小变化的不变性。

🏷️