语言模型和人类的推理都依赖内容
💡
原文中文,约1100字,阅读约需3分钟。
📝
内容提要
本文评估了大型语言模型和人类在逻辑推理任务中的表现,发现两者在许多方面存在相似模式,且模型的准确性与任务的语义内容相关。人类和LM在推理任务上的表现有很大的重叠,内容对准确性和其他行为指标产生了类似的影响。
🎯
关键要点
- 人类的推理依赖于问题的内容,内容支持逻辑推理时回答更准确。
- 大型语言模型(LM)在逻辑推理任务中表现出与人类相似的模式,内容影响模型的准确性。
- 抽象推理是智能系统的重要能力,LM在此任务中的表现超出预期,但仍存在不完美之处。
- 人类的推理受到现实世界知识和信念的影响,表现出明显的内容效应。
- 在自然语言推理任务中,LM和人类的表现接近天花板,但在更复杂的任务中准确性降低。
- 内容支持逻辑时,人类和LM的表现优于不支持逻辑时。
- 人类响应时间与模型置信度之间存在项目级关联,反映出相似的推理模式。
- Wason任务中,内容支持的版本对人类来说比预期更困难,只有响应最慢的子集表现良好。
- 总体而言,LM和人类在推理任务上的表现有很大重叠,内容对准确性和其他行为指标产生类似影响。
➡️