小红花·文摘

任天堂的新手机游戏《火焰纹章》加入了类似《我们之中》的玩法元素

The Verge ·

在狼人杀游戏中，GPT-5表现优异，胜率达到96.7%，成为MVP。在与7个AI模型的对战中，GPT-5在操控和防守方面表现突出，超越了GPT-4，展现出更强的社交推理能力。其他模型如Kimi-K2和Qwen3表现较弱。

7个AI玩狼人杀，GPT-5获断崖式MVP，Kimi手段激进

量子位 ·

本研究提出了新的视频数据集R^3-VQA，以解决社交推理任务的复杂性不足问题。研究表明，现有视觉语言模型在复杂社交场景中的推理能力仍低于人类，而心理理论的应用可以提升其社交推理能力。

R^3-VQA: 通过视频社交推理“读懂房间”

BriefGPT - AI 论文速递 ·

我制作了一个可以与陌生人实时玩耍的Mafia游戏——无需注册

DEV Community ·

棋盘变战场，大模型却呆了？普林斯顿、UT Austin新基准SPIN-Bench曝AI智商瓶颈

机器之心 ·

本研究提出了SPIN-Bench评估框架，用于评估大型语言模型在战略推理和社交推理中的表现。研究发现，这些模型在基本事实检索和短期规划方面表现良好，但在复杂社交协调和深度推理任务中存在显著瓶颈。

SPIN-Bench: How Well Do Large Language Models Perform in Strategic Planning and Social Reasoning?

BriefGPT - AI 论文速递 ·

本研究提出了一种名为“思维追踪”的推理算法，旨在提升大规模语言模型在无真实答案场景下的推理能力。该算法通过生成假设并加权观察，显著改善了心智理论基准测试中的推理性能，展现了社交推理的独特性。

Hypothesis-Driven Theory-of-Mind Reasoning for Language Models

BriefGPT - AI 论文速递 ·

哪家AI能成卧底之王？淘天技术团队发布多智能体博弈游戏平台WiS

机器之心 ·

本研究创建了BigToM基准，以评估大型语言模型（LLMs）的社交推理能力。研究发现，GPT-4在理论思维上表现良好，但可靠性不足。新的评估框架和数据集揭示了LLMs在心智理论任务中的局限性，特别是在理解他人心理状态方面。研究旨在通过技术改进提升LLMs的推理能力，并探讨其在不同任务中的表现。

SimpleToM：揭示大型语言模型中显性心智理论推理与隐性应用之间的差距

BriefGPT - AI 论文速递 ·

在Mastodon平台上，研究了大型语言模型（LLMs）的潜力与威胁，发现参与者识别真实性的准确率仅为42%。通过模拟人际互动，展示了LLMs在社交推理游戏中的应用，并提出了新的评估框架，探讨其在复杂游戏环境中的决策能力和性能差距。

AMONGAGENTS: 评估大型语言模型在交互式基于文本的社交推理游戏中的应用

BriefGPT - AI 论文速递 ·

本文介绍了机器理论心智（ToM）的研究进展，重点讨论了Symbolic ToM方法、神经网络架构和多模态心智问答基准。研究表明，结合低层次和高层次心智状态的模型能提高意图预测的准确性。同时，探讨了大型语言模型在社交推理中的能力及其与人类认知的相似性，强调了标准评估和数据集的重要性。

非语言社交互动中信念预测的明确理论心智建模

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在理解他人心理状态（心智理论）方面的能力，提出了ToMBench评估框架和新方法。研究表明，GPT系列模型在心智理论任务中表现优于其他模型，社交推理能力接近人类水平。通过新评估范式T4D，模型在心理状态推断与行动的关联性上表现更佳。这些发现对LLMs的应用具有重要意义。

从感知到信念：探索大型语言模型中理解心智理论的前继推断

BriefGPT - AI 论文速递 ·

本研究通过SimToM框架提升大型语言模型（LLMs）的心智理论推理能力，提出ToMBench评估框架和OpenToM基准，分析LLMs在理解他人心理状态方面的局限性，并探讨多模态模型在社交和情感推理中的应用，发现视频可作为检验推理能力的新媒介。

TimeToM: 时空是解锁大型语言模型心灵理论之门的关键

BriefGPT - AI 论文速递 ·

本研究评估了大型语言模型（LLMs）的情感智能，发现其情商普遍高于人类平均水平，但在复杂任务中表现不稳定。通过新基准BigToM评估社交推理能力，GPT-4表现良好但不够可靠。研究还探讨了人类与LLMs在推理和决策中的差异，强调混合AI模型可能更接近人类推理。

评估和模拟社会智能：人类与人工智能能力的比较研究

BriefGPT - AI 论文速递 ·