BriefGPT - AI 论文速递 ·

TimeToM: 时空是解锁大型语言模型心灵理论之门的关键

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本研究通过SimToM框架提升大型语言模型（LLMs）的心智理论推理能力，提出ToMBench评估框架和OpenToM基准，分析LLMs在理解他人心理状态方面的局限性，并探讨多模态模型在社交和情感推理中的应用，发现视频可作为检验推理能力的新媒介。

🎯

❓

SimToM框架通过仿真理论的视角改进了大型语言模型的推理能力，无需额外训练和大量提示微调。

ToMBench评估框架旨在高效评估大型语言模型的心智理论能力，分析其在理解他人心智状态方面的局限性。

HI-TOM基准的实验结果表明，基于大型语言模型的性能在较高阶心智理论任务上出现下降，显示了现有模型的局限性。

OpenToM基准揭示了最先进模型在心理世界中的心理状态跟踪能力不足。

SymbolicToM方法通过显式符号表示提升了阅读理解任务中的推理能力，表现出显著的理解能力提升。

多模态模型通过视频作为新媒介，能够显性推理涉及社交和情感内容的任务，提升推理能力。

🏷️