小红花·文摘

本研究比较了GPT-2和LLaMA-2在心智理论任务中的下一个令牌预测表现。结果表明，LLaMA-2在低温度设置下的预测准确性优于GPT-2，尤其在复杂推理任务中，两者表现差异显著。

Exploring Next Token Prediction in Theory of Mind (ToM) Tasks: Comparative Experiments with GPT-2 and LLaMA-2 AI Models

BriefGPT - AI 论文速递 ·

本研究探讨了现有心智理论基准在评估大型语言模型社交智能方面的局限性，提出了一种基于人机交互的动态方法，重新定义基准，以更好地反映用户的偏好和需求。研究表明，改进后的基准能提高对大型语言模型心智理论能力的评估准确性和实用性。

Rethinking User-Centered Benchmarks for Theory of Mind in LLMs

BriefGPT - AI 论文速递 ·

本研究通过强化学习提升小型大型语言模型在心智理论推理中的表现，7B参数模型在Hi-ToM基准测试中达到了84.50%的准确率，显示了强化学习在社交认知推理中的潜力。

ToM-RL: Reinforcement Learning Unlocks Theory of Mind in Small Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种名为“思维追踪”的推理算法，旨在提升大规模语言模型在无真实答案场景下的推理能力。该算法通过生成假设并加权观察，显著改善了心智理论基准测试中的推理性能，展现了社交推理的独特性。

Hypothesis-Driven Theory-of-Mind Reasoning for Language Models

BriefGPT - AI 论文速递 ·

本研究分析了大语言模型在心智理论（ToM）评估中的不足，提出了新的评估方法，强调高级ToM能力的安全风险及其有效评估的重要性。

Research on Theory of Mind in Large Language Models: Assessment, Representation, and Safety Risks

BriefGPT - AI 论文速递 ·

本研究探讨人工智能系统是否应具有人格地位，提出识别AI人格的必要条件，包括代理性、心智理论和自我意识。目前证据尚不充分，可能影响我们对AI对齐的理解，并推动进一步研究。

Towards a Theory of AI Personhood

BriefGPT - AI 论文速递 ·

本研究提出了ToMATO基准，以解决现有心智理论测试的不足。通过角色扮演生成对话，捕捉多种心智状态，发现虚假信念的生成普遍存在，并且人格特征显著影响模型表现。

ToMATO：对角色扮演大型语言模型进行心智理论基准测试的言语化

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型在心智理论（ToM）能力方面的研究现状，指出现有研究忽视了深度思考的步骤，并提出了一种新评估方法，以全面评估ToM能力，尤其是在动态环境中的应用。

关注你的理论：心智理论超越推理的深度

BriefGPT - AI 论文速递 ·

人工智能的类型及示例

BMC Software | Blogs ·

本研究探讨了具备心智理论（ToM）的自适应机器人对用户表现和感知的影响。通过双层架构设计，结合Q学习和ToM推断用户意图，结果表明具备ToM的机器人显著提升了用户表现和接受度，为未来复杂计算架构设计提供了重要参考。

Enhancing Robot Assistive Behavior with Reinforcement Learning and Theory of Mind

BriefGPT - AI 论文速递 ·

本研究创建了BigToM基准，以评估大型语言模型（LLMs）的社交推理能力。研究发现，GPT-4在理论思维上表现良好，但可靠性不足。新的评估框架和数据集揭示了LLMs在心智理论任务中的局限性，特别是在理解他人心理状态方面。研究旨在通过技术改进提升LLMs的推理能力，并探讨其在不同任务中的表现。

SimpleToM：揭示大型语言模型中显性心智理论推理与隐性应用之间的差距

BriefGPT - AI 论文速递 ·

本文探讨了心智理论（ToM）在人工智能中的应用，特别是大型语言模型（LLMs）在理解人类心理状态方面的局限性。研究提出了多模式心智问答基准（MMToM-QA）和新方法BIP-ALM，以评估机器的心智理解能力。实验结果显示，尽管LLMs在某些任务上表现良好，但仍缺乏强大的心智理解能力，指出了未来研究的方向。

MuMA-ToM：多模态多智能体心智理论

BriefGPT - AI 论文速递 ·

本研究评估了大型语言模型在多智能体协作文本游戏中的推理能力，发现其在合作和推理方面表现优异，但在长期任务管理上存在局限。通过显式信念状态表示改善了其表现，并探讨了心智理论在合作中的重要性，提出了未来研究方向。

在关单中基于心智论评估和增强 LLM 代理：一款多人合作游戏中的不完全信息

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在理解他人心理状态（心智理论）方面的能力，提出了ToMBench评估框架和新方法。研究表明，GPT系列模型在心智理论任务中表现优于其他模型，社交推理能力接近人类水平。通过新评估范式T4D，模型在心理状态推断与行动的关联性上表现更佳。这些发现对LLMs的应用具有重要意义。

从感知到信念：探索大型语言模型中理解心智理论的前继推断

BriefGPT - AI 论文速递 ·

本研究通过SimToM框架提升大型语言模型（LLMs）的心智理论推理能力，提出ToMBench评估框架和OpenToM基准，分析LLMs在理解他人心理状态方面的局限性，并探讨多模态模型在社交和情感推理中的应用，发现视频可作为检验推理能力的新媒介。

TimeToM: 时空是解锁大型语言模型心灵理论之门的关键

BriefGPT - AI 论文速递 ·

研究表明，大型语言模型（LLMs）在理解他人信念和意图方面的能力逐渐接近人类水平。通过新的评估框架ToMBench，发现GPT系列模型在心智理论任务中表现优于其他模型。适当的提示和个性化设置显著提升其推理能力，模型规模和微调对ToM能力有重要影响。这些发现对LLMs的应用具有重要意义。

语言模型中心理状态表征的基准测试

BriefGPT - AI 论文速递 ·

通过测试发现，GPT 系列的调整模型在理解意图和信念方面表现优于其他模型和儿童。基础模型无法解决心智理论任务。指令调整模型的增加可能与语言和心智理论的互相关联有关。呼吁在 LLMs 中对心智理论保持观点。

语言模型表达自我和他人的信念

BriefGPT - AI 论文速递 ·

研究发现，GPT系列的调整模型在理解意图和信念方面表现优于其他模型和儿童。指令调整模型的增加可能与语言和心智理论的互相关联有关。建议对语言模型中的心智理论保持细致观点。

人机交互中大型语言模型对心理理论的能力：一种幻象？

BriefGPT - AI 论文速递 ·

本文研究了大型语言模型（LLMs）在理解意图和信念等认知能力方面的表现。研究发现，GPT 系列的调整模型表现优于其他模型和儿童，而基础模型大多无法解决心智理论任务。作者认为，语言和心智理论的互相关联可能解释了指令调整模型的增加。最后，作者呼吁在 LLMs 中对心智理论保持一个细致的观点。

大型语言模型中的心智理论：考察 11 种当前最先进模型与 7-10 岁儿童在高难度测试上的表现

BriefGPT - AI 论文速递 ·