语言模型和人类的推理都依赖内容

💡 原文中文,约1100字,阅读约需3分钟。
📝

内容提要

本文评估了大型语言模型和人类在逻辑推理任务中的表现,发现两者在许多方面存在相似模式,且模型的准确性与任务的语义内容相关。人类和LM在推理任务上的表现有很大的重叠,内容对准确性和其他行为指标产生了类似的影响。

🎯

关键要点

  • 人类的推理依赖于问题的内容,内容支持逻辑推理时回答更准确。
  • 大型语言模型(LM)在逻辑推理任务中表现出与人类相似的模式,内容影响模型的准确性。
  • 抽象推理是智能系统的重要能力,LM在此任务中的表现超出预期,但仍存在不完美之处。
  • 人类的推理受到现实世界知识和信念的影响,表现出明显的内容效应。
  • 在自然语言推理任务中,LM和人类的表现接近天花板,但在更复杂的任务中准确性降低。
  • 内容支持逻辑时,人类和LM的表现优于不支持逻辑时。
  • 人类响应时间与模型置信度之间存在项目级关联,反映出相似的推理模式。
  • Wason任务中,内容支持的版本对人类来说比预期更困难,只有响应最慢的子集表现良好。
  • 总体而言,LM和人类在推理任务上的表现有很大重叠,内容对准确性和其他行为指标产生类似影响。
➡️

继续阅读