补齐Transformer规划短板又不放弃快速思考,田渊栋团队的Dualformer融合System 1和2双重优势
原文中文,约6100字,阅读约需15分钟。发表于: 。Meta FAIR团队提出Dualformer,一种受人类认知理论启发的新型Transformer架构。它结合快速直觉的系统1和深思熟虑的系统2,通过随机化推理轨迹训练,在推理时选择快速或慢速模式,提高效率和能力。实验显示,Dualformer在迷宫和推箱子任务中优于基线模型,并在数学推理中表现更高效。
Meta FAIR团队提出Dualformer,一种受人类认知理论启发的新型Transformer架构。它结合快速直觉的系统1和深思熟虑的系统2,通过随机化推理轨迹训练,在推理时选择快速或慢速模式,提高效率和能力。实验显示,Dualformer在迷宫和推箱子任务中优于基线模型,并在数学推理中表现更高效。