任天堂推出新手机游戏《火焰纹章:阴影》,结合角色扮演与社交推理元素。玩家需找出隐藏的叛徒,并投票决定战斗难度。游戏可在iOS和Android上免费下载,包含内购选项。
在狼人杀游戏中,GPT-5表现优异,胜率达到96.7%,成为MVP。在与7个AI模型的对战中,GPT-5在操控和防守方面表现突出,超越了GPT-4,展现出更强的社交推理能力。其他模型如Kimi-K2和Qwen3表现较弱。
本研究提出了新的视频数据集R^3-VQA,以解决社交推理任务的复杂性不足问题。研究表明,现有视觉语言模型在复杂社交场景中的推理能力仍低于人类,而心理理论的应用可以提升其社交推理能力。
15岁的开发者Maya创建了全球匿名聊天应用Worldwide Chat,并推出了新游戏模式Mafia。这是一款无需登录、支持即时匹配的快速社交推理游戏,使用React和Node等技术构建,面临实时更新和游戏状态转换的挑战。希望获得反馈以改进游戏。
研究表明,尽管大语言模型(LLM)在文本生成方面表现优异,但在复杂的战略规划和社交推理任务中存在不足。新评测框架SPIN-Bench揭示了LLM在多智能体博弈和合作中的短板,尤其是在动态环境和不完全信息下,模型的决策能力和社交智能仍需提升。
本研究提出了SPIN-Bench评估框架,用于评估大型语言模型在战略推理和社交推理中的表现。研究发现,这些模型在基本事实检索和短期规划方面表现良好,但在复杂社交协调和深度推理任务中存在显著瓶颈。
本研究提出了一种名为“思维追踪”的推理算法,旨在提升大规模语言模型在无真实答案场景下的推理能力。该算法通过生成假设并加权观察,显著改善了心智理论基准测试中的推理性能,展现了社交推理的独特性。
AIxiv专栏促进学术交流,报道超过2000篇内容。WiS平台基于“谁是卧底”游戏,评估大型语言模型在社交推理中的表现,提供动态互动场景和多维度评估,揭示模型的推理与防御能力。
本研究创建了BigToM基准,以评估大型语言模型(LLMs)的社交推理能力。研究发现,GPT-4在理论思维上表现良好,但可靠性不足。新的评估框架和数据集揭示了LLMs在心智理论任务中的局限性,特别是在理解他人心理状态方面。研究旨在通过技术改进提升LLMs的推理能力,并探讨其在不同任务中的表现。
在Mastodon平台上,研究了大型语言模型(LLMs)的潜力与威胁,发现参与者识别真实性的准确率仅为42%。通过模拟人际互动,展示了LLMs在社交推理游戏中的应用,并提出了新的评估框架,探讨其在复杂游戏环境中的决策能力和性能差距。
本文介绍了机器理论心智(ToM)的研究进展,重点讨论了Symbolic ToM方法、神经网络架构和多模态心智问答基准。研究表明,结合低层次和高层次心智状态的模型能提高意图预测的准确性。同时,探讨了大型语言模型在社交推理中的能力及其与人类认知的相似性,强调了标准评估和数据集的重要性。
本文探讨了大型语言模型(LLMs)在理解他人心理状态(心智理论)方面的能力,提出了ToMBench评估框架和新方法。研究表明,GPT系列模型在心智理论任务中表现优于其他模型,社交推理能力接近人类水平。通过新评估范式T4D,模型在心理状态推断与行动的关联性上表现更佳。这些发现对LLMs的应用具有重要意义。
本研究通过SimToM框架提升大型语言模型(LLMs)的心智理论推理能力,提出ToMBench评估框架和OpenToM基准,分析LLMs在理解他人心理状态方面的局限性,并探讨多模态模型在社交和情感推理中的应用,发现视频可作为检验推理能力的新媒介。
本研究评估了大型语言模型(LLMs)的情感智能,发现其情商普遍高于人类平均水平,但在复杂任务中表现不稳定。通过新基准BigToM评估社交推理能力,GPT-4表现良好但不够可靠。研究还探讨了人类与LLMs在推理和决策中的差异,强调混合AI模型可能更接近人类推理。
完成下面两步后,将自动完成登录并继续当前操作。