还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板
原文中文,约2800字,阅读约需7分钟。发表于: 。北大和清华的研究发现,高效模型如Mamba在推理能力上存在局限。尽管思维链(CoT)能提升Transformer的推理能力,但高效模型仍不如标准Transformer。Sparse Transformer和Linear Transformer在动态规划问题上需增加模型宽度,时间复杂度与标准Transformer相同。研究还指出RNN在某些任务上不如Transformer。两校建议通过局部性和上下文检索器提升高效模型的推理能力。