本研究比较了GPT-2和LLaMA-2在心智理论任务中的下一个令牌预测表现。结果表明,LLaMA-2在低温度设置下的预测准确性优于GPT-2,尤其在复杂推理任务中,两者表现差异显著。
本研究探讨了现有心智理论基准在评估大型语言模型社交智能方面的局限性,提出了一种基于人机交互的动态方法,重新定义基准,以更好地反映用户的偏好和需求。研究表明,改进后的基准能提高对大型语言模型心智理论能力的评估准确性和实用性。
本研究通过强化学习提升小型大型语言模型在心智理论推理中的表现,7B参数模型在Hi-ToM基准测试中达到了84.50%的准确率,显示了强化学习在社交认知推理中的潜力。
本研究提出了一种名为“思维追踪”的推理算法,旨在提升大规模语言模型在无真实答案场景下的推理能力。该算法通过生成假设并加权观察,显著改善了心智理论基准测试中的推理性能,展现了社交推理的独特性。
本研究分析了大语言模型在心智理论(ToM)评估中的不足,提出了新的评估方法,强调高级ToM能力的安全风险及其有效评估的重要性。
本研究探讨人工智能系统是否应具有人格地位,提出识别AI人格的必要条件,包括代理性、心智理论和自我意识。目前证据尚不充分,可能影响我们对AI对齐的理解,并推动进一步研究。
本研究提出了ToMATO基准,以解决现有心智理论测试的不足。通过角色扮演生成对话,捕捉多种心智状态,发现虚假信念的生成普遍存在,并且人格特征显著影响模型表现。
本文探讨了大型语言模型在心智理论(ToM)能力方面的研究现状,指出现有研究忽视了深度思考的步骤,并提出了一种新评估方法,以全面评估ToM能力,尤其是在动态环境中的应用。
人工智能(A.I.)分为四种类型:反应机器、有限记忆、心智理论和自我意识。反应机器无法学习,有限记忆能存储数据以改善预测,心智理论涉及与人类情感的互动,自我意识是未来可能实现的状态。A.I.正在改变工作方式,提升人类创造力。
本研究探讨了具备心智理论(ToM)的自适应机器人对用户表现和感知的影响。通过双层架构设计,结合Q学习和ToM推断用户意图,结果表明具备ToM的机器人显著提升了用户表现和接受度,为未来复杂计算架构设计提供了重要参考。
本研究创建了BigToM基准,以评估大型语言模型(LLMs)的社交推理能力。研究发现,GPT-4在理论思维上表现良好,但可靠性不足。新的评估框架和数据集揭示了LLMs在心智理论任务中的局限性,特别是在理解他人心理状态方面。研究旨在通过技术改进提升LLMs的推理能力,并探讨其在不同任务中的表现。
本文探讨了心智理论(ToM)在人工智能中的应用,特别是大型语言模型(LLMs)在理解人类心理状态方面的局限性。研究提出了多模式心智问答基准(MMToM-QA)和新方法BIP-ALM,以评估机器的心智理解能力。实验结果显示,尽管LLMs在某些任务上表现良好,但仍缺乏强大的心智理解能力,指出了未来研究的方向。
本研究评估了大型语言模型在多智能体协作文本游戏中的推理能力,发现其在合作和推理方面表现优异,但在长期任务管理上存在局限。通过显式信念状态表示改善了其表现,并探讨了心智理论在合作中的重要性,提出了未来研究方向。
本文探讨了大型语言模型(LLMs)在理解他人心理状态(心智理论)方面的能力,提出了ToMBench评估框架和新方法。研究表明,GPT系列模型在心智理论任务中表现优于其他模型,社交推理能力接近人类水平。通过新评估范式T4D,模型在心理状态推断与行动的关联性上表现更佳。这些发现对LLMs的应用具有重要意义。
本研究通过SimToM框架提升大型语言模型(LLMs)的心智理论推理能力,提出ToMBench评估框架和OpenToM基准,分析LLMs在理解他人心理状态方面的局限性,并探讨多模态模型在社交和情感推理中的应用,发现视频可作为检验推理能力的新媒介。
研究表明,大型语言模型(LLMs)在理解他人信念和意图方面的能力逐渐接近人类水平。通过新的评估框架ToMBench,发现GPT系列模型在心智理论任务中表现优于其他模型。适当的提示和个性化设置显著提升其推理能力,模型规模和微调对ToM能力有重要影响。这些发现对LLMs的应用具有重要意义。
通过测试发现,GPT 系列的调整模型在理解意图和信念方面表现优于其他模型和儿童。基础模型无法解决心智理论任务。指令调整模型的增加可能与语言和心智理论的互相关联有关。呼吁在 LLMs 中对心智理论保持观点。
研究发现,GPT系列的调整模型在理解意图和信念方面表现优于其他模型和儿童。指令调整模型的增加可能与语言和心智理论的互相关联有关。建议对语言模型中的心智理论保持细致观点。
本文研究了大型语言模型(LLMs)在理解意图和信念等认知能力方面的表现。研究发现,GPT 系列的调整模型表现优于其他模型和儿童,而基础模型大多无法解决心智理论任务。作者认为,语言和心智理论的互相关联可能解释了指令调整模型的增加。最后,作者呼吁在 LLMs 中对心智理论保持一个细致的观点。
完成下面两步后,将自动完成登录并继续当前操作。