机器之心 ·

还是原装Transformer好！北大清华团队同时揭示Mamba等推理短板

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

北大和清华的研究发现，高效模型如Mamba在推理能力上存在局限。尽管思维链（CoT）能提升Transformer的推理能力，但高效模型仍不如标准Transformer。Sparse Transformer和Linear Transformer在动态规划问题上需增加模型宽度，时间复杂度与标准Transformer相同。研究还指出RNN在某些任务上不如Transformer。两校建议通过局部性和上下文检索器提升高效模型的推理能力。

🎯

关键要点

北大和清华的研究发现高效模型如Mamba在推理能力上存在局限。
思维链（CoT）能提升Transformer的推理能力，但高效模型仍不如标准Transformer。
Sparse Transformer和Linear Transformer在动态规划问题上需增加模型宽度，时间复杂度与标准Transformer相同。
研究指出RNN在某些任务上不如Transformer。
两校建议通过局部性和上下文检索器提升高效模型的推理能力。
思维链的引入增加了生成内容的长度，消耗更多计算资源。
研究团队一致证实高效模型在理论能力上无法解决多种实际推理问题。
北大研究团队证明高效模型在动态规划问题上无计算优势。
清华研究团队证明RNN模型在基本问题上的表达能力差距。
模型规模必须随着问题规模的增加而扩展。
北大研究团队从推理任务的局部性入手，提出理论更优的推理速度。
清华研究团队引入上下文检索器，增强RNN使用思维链的能力。
实验结果表明标准Transformer架构使用了最小的计算量，且良好的推理局部性增强了高效模型的能力。

🏷️

继续阅读

坦克铁汉柔情燃动北京车展，全新坦克700领衔定义全域豪华新标杆
坦克品牌在2026年北京车展庆祝成立五周年，推出全新坦克700，起售价42.8万元。品牌回顾五年成就，展示全球用户信任与文化建设。演员童瑶担任首席体验官，...
Valeria Kaplan: Why sell the idea of contributing to PostgreSQL to your employer
How contribution decisions shape the sustainability of the PostgreSQL ecosyst...
Cloudflare Announces Agent Memory, a Managed Persistent Memory Service for AI Agents
Cloudflare announced Agent Memory in private beta, a managed service that ext...
乌迈尔·沙希德：最佳PostgreSQL数据库故意选择无趣
文章讨论了PostgreSQL数据库的稳定部署的重要性。稳定意味着高效，减少故障和紧急修复。通过定期检查、调整参数和备份演练，团队可以提高客户信任，节省时...
海信RGB MiniLED显示屏亮相《穿普拉达的女王2》全球首映礼
海信与二十世纪影业合作，在《穿普拉达的女王2》全球首映礼上展示了其RGB MiniLED显示技术，该技术提升了色彩还原度和亮度，满足高端场景需求，强调了新...
IDE已经成为AI质量的变量。它在您的AI议程上吗？
开发者选择的IDE对AI工具的效果至关重要。AI网关管理基础设施，影响开发效率和成本。DORA报告指出，良好的上下文信息能提升AI输出质量。JetBrai...

还是原装Transformer好！北大清华团队同时揭示Mamba等推理短板

内容提要

关键要点

标签

继续阅读