任天堂推出新手机游戏《火焰纹章:阴影》,结合角色扮演与社交推理元素。玩家需找出隐藏的叛徒,并投票决定战斗难度。游戏可在iOS和Android上免费下载,包含内购选项。
在狼人杀游戏中,GPT-5表现优异,胜率达到96.7%,成为MVP。在与7个AI模型的对战中,GPT-5在操控和防守方面表现突出,超越了GPT-4,展现出更强的社交推理能力。其他模型如Kimi-K2和Qwen3表现较弱。
本研究提出了新的视频数据集R^3-VQA,以解决社交推理任务的复杂性不足问题。研究表明,现有视觉语言模型在复杂社交场景中的推理能力仍低于人类,而心理理论的应用可以提升其社交推理能力。
15岁的开发者Maya创建了全球匿名聊天应用Worldwide Chat,并推出了新游戏模式Mafia。这是一款无需登录、支持即时匹配的快速社交推理游戏,使用React和Node等技术构建,面临实时更新和游戏状态转换的挑战。希望获得反馈以改进游戏。
研究表明,尽管大语言模型(LLM)在文本生成方面表现优异,但在复杂的战略规划和社交推理任务中存在不足。新评测框架SPIN-Bench揭示了LLM在多智能体博弈和合作中的短板,尤其是在动态环境和不完全信息下,模型的决策能力和社交智能仍需提升。
本研究提出了SPIN-Bench评估框架,用于评估大型语言模型在战略推理和社交推理中的表现。研究发现,这些模型在基本事实检索和短期规划方面表现良好,但在复杂社交协调和深度推理任务中存在显著瓶颈。
本研究提出了一种“思维追踪”算法,旨在解决大规模语言模型在缺乏真实答案时的推理能力不足。该算法通过生成假设并加权观察,显著提升了社交推理的性能。
AIxiv专栏促进学术交流,报道超过2000篇内容。WiS平台基于“谁是卧底”游戏,评估大型语言模型在社交推理中的表现,提供动态互动场景和多维度评估,揭示模型的推理与防御能力。
最近的研究发现,大型语言模型具有推理人们心理状态的能力。研究者通过使用视频和文本开发了一个基于多模态语言模型的推理管道,实现了对涉及社交和情感推理内容的视频的显性推理。同时,他们还揭示了多模态语言模型如何推理认知理论。
完成下面两步后,将自动完成登录并继续当前操作。