本研究比较了GPT-2和LLaMA-2在心智理论任务中的下一个令牌预测表现。结果表明,LLaMA-2在低温度设置下的预测准确性优于GPT-2,尤其在复杂推理任务中,两者表现差异显著。
本研究探讨了现有心智理论基准在评估大型语言模型社交智能方面的局限性,提出了一种基于人机交互的动态方法,重新定义基准,以更好地反映用户的偏好和需求。研究表明,改进后的基准能提高对大型语言模型心智理论能力的评估准确性和实用性。
本研究通过强化学习提升小型大型语言模型在心智理论推理中的表现,7B参数模型在Hi-ToM基准测试中达到了84.50%的准确率,显示了强化学习在社交认知推理中的潜力。
本研究分析了大语言模型在心智理论(ToM)评估中的不足,提出了新的评估方法,强调高级ToM能力的安全风险及其有效评估的重要性。
本研究探讨人工智能系统是否应具有人格地位,提出识别AI人格的必要条件,包括代理性、心智理论和自我意识。目前证据尚不充分,可能影响我们对AI对齐的理解,并推动进一步研究。
本研究提出了ToMATO基准,以解决现有心智理论测试的不足。通过角色扮演生成对话,捕捉多种心智状态,发现虚假信念的生成普遍存在,并且人格特征显著影响模型表现。
本文探讨了大型语言模型在心智理论(ToM)能力方面的研究现状,指出现有研究忽视了深度思考的步骤,并提出了一种新评估方法,以全面评估ToM能力,尤其是在动态环境中的应用。
人工智能(A.I.)分为四种类型:反应机器、有限记忆、心智理论和自我意识。反应机器无法学习,有限记忆能存储数据以改善预测,心智理论涉及与人类情感的互动,自我意识是未来可能实现的状态。A.I.正在改变工作方式,提升人类创造力。
本研究探讨具备心智理论(ToM)能力的自适应机器人对用户表现和感知的影响,设计了双层架构,结合Q学习与ToM推断,结果表明具备ToM的机器人显著提升了用户的表现和接受度。
本研究通过SimpleToM数据集探讨大型语言模型在社交环境中应用心智理论的能力。结果显示,模型能预测心理状态,但在行为预测和合理性判断上存在不足,强调增强模型能力的重要性,仍需特定任务干预。
通过测试发现,GPT 系列的调整模型在理解意图和信念方面表现优于其他模型和儿童。基础模型无法解决心智理论任务。指令调整模型的增加可能与语言和心智理论的互相关联有关。呼吁在 LLMs 中对心智理论保持观点。
研究发现,GPT系列的调整模型在理解意图和信念方面表现优于其他模型和儿童。指令调整模型的增加可能与语言和心智理论的互相关联有关。建议对语言模型中的心智理论保持细致观点。
本文研究了大型语言模型(LLMs)在理解意图和信念等认知能力方面的表现。研究发现,GPT 系列的调整模型表现优于其他模型和儿童,而基础模型大多无法解决心智理论任务。作者认为,语言和心智理论的互相关联可能解释了指令调整模型的增加。最后,作者呼吁在 LLMs 中对心智理论保持一个细致的观点。
完成下面两步后,将自动完成登录并继续当前操作。