本研究提出了新的视频数据集R^3-VQA,以解决社交推理任务的复杂性不足问题。研究表明,现有视觉语言模型在复杂社交场景中的推理能力仍低于人类,而心理理论的应用可以提升其社交推理能力。
本文提出了ToMCAT框架,旨在生成基于心理理论的合作智能体轨迹。该框架结合了元学习和多智能体去噪扩散模型,能够动态调整计划,从而提升团队表现并降低资源消耗。
本研究提出ToM-agent新范式,旨在提升大型语言模型在开放领域对话中的心理理论能力,通过解耦心理状态与信心,增强对话者信念、欲望和意图的推断能力。
完成下面两步后,将自动完成登录并继续当前操作。