小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究比较了GPT-2和LLaMA-2在心智理论任务中的下一个令牌预测表现。结果表明,LLaMA-2在低温度设置下的预测准确性优于GPT-2,尤其在复杂推理任务中,两者表现差异显著。

Exploring Next Token Prediction in Theory of Mind (ToM) Tasks: Comparative Experiments with GPT-2 and LLaMA-2 AI Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-22T00:00:00Z

本研究探讨了现有心智理论基准在评估大型语言模型社交智能方面的局限性,提出了一种基于人机交互的动态方法,重新定义基准,以更好地反映用户的偏好和需求。研究表明,改进后的基准能提高对大型语言模型心智理论能力的评估准确性和实用性。

Rethinking User-Centered Benchmarks for Theory of Mind in LLMs

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-15T00:00:00Z

本研究通过强化学习提升小型大型语言模型在心智理论推理中的表现,7B参数模型在Hi-ToM基准测试中达到了84.50%的准确率,显示了强化学习在社交认知推理中的潜力。

ToM-RL: Reinforcement Learning Unlocks Theory of Mind in Small Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-02T00:00:00Z

本研究分析了大语言模型在心智理论(ToM)评估中的不足,提出了新的评估方法,强调高级ToM能力的安全风险及其有效评估的重要性。

Research on Theory of Mind in Large Language Models: Assessment, Representation, and Safety Risks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-10T00:00:00Z

本研究探讨人工智能系统是否应具有人格地位,提出识别AI人格的必要条件,包括代理性、心智理论和自我意识。目前证据尚不充分,可能影响我们对AI对齐的理解,并推动进一步研究。

Towards a Theory of AI Personhood

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-23T00:00:00Z

本研究提出了ToMATO基准,以解决现有心智理论测试的不足。通过角色扮演生成对话,捕捉多种心智状态,发现虚假信念的生成普遍存在,并且人格特征显著影响模型表现。

ToMATO:对角色扮演大型语言模型进行心智理论基准测试的言语化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-15T00:00:00Z

本文探讨了大型语言模型在心智理论(ToM)能力方面的研究现状,指出现有研究忽视了深度思考的步骤,并提出了一种新评估方法,以全面评估ToM能力,尤其是在动态环境中的应用。

关注你的理论:心智理论超越推理的深度

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z
人工智能的类型及示例

人工智能(A.I.)分为四种类型:反应机器、有限记忆、心智理论和自我意识。反应机器无法学习,有限记忆能存储数据以改善预测,心智理论涉及与人类情感的互动,自我意识是未来可能实现的状态。A.I.正在改变工作方式,提升人类创造力。

人工智能的类型及示例

BMC Software | Blogs
BMC Software | Blogs · 2024-11-11T00:00:09Z

本研究探讨具备心智理论(ToM)能力的自适应机器人对用户表现和感知的影响,设计了双层架构,结合Q学习与ToM推断,结果表明具备ToM的机器人显著提升了用户的表现和接受度。

通过强化学习和心智理论增强机器人辅助行为

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-11T00:00:00Z

本研究通过SimpleToM数据集探讨大型语言模型在社交环境中应用心智理论的能力。结果显示,模型能预测心理状态,但在行为预测和合理性判断上存在不足,强调增强模型能力的重要性,仍需特定任务干预。

SimpleToM:揭示大型语言模型中显性心智理论推理与隐性应用之间的差距

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

通过测试发现,GPT 系列的调整模型在理解意图和信念方面表现优于其他模型和儿童。基础模型无法解决心智理论任务。指令调整模型的增加可能与语言和心智理论的互相关联有关。呼吁在 LLMs 中对心智理论保持观点。

语言模型表达自我和他人的信念

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-28T00:00:00Z

研究发现,GPT系列的调整模型在理解意图和信念方面表现优于其他模型和儿童。指令调整模型的增加可能与语言和心智理论的互相关联有关。建议对语言模型中的心智理论保持细致观点。

人机交互中大型语言模型对心理理论的能力:一种幻象?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-10T00:00:00Z

本文研究了大型语言模型(LLMs)在理解意图和信念等认知能力方面的表现。研究发现,GPT 系列的调整模型表现优于其他模型和儿童,而基础模型大多无法解决心智理论任务。作者认为,语言和心智理论的互相关联可能解释了指令调整模型的增加。最后,作者呼吁在 LLMs 中对心智理论保持一个细致的观点。

大型语言模型中的心智理论:考察 11 种当前最先进模型与 7-10 岁儿童在高难度测试上的表现

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-31T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码