量子位 ·

Mamba一作预告新架构！长文论述Transformer≠最终解法

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

Mamba探讨了状态空间模型（SSMs）与Transformer的优劣，指出Attention并非万能，SSMs在处理长序列信息时更具优势。Mamba在同规模下超越Transformer，强调混合模型的潜力，未来可能结合两者优势开发新架构。

🎯

❓

Mamba在同规模下超越Transformer，特别是在处理长序列信息时更具优势，计算成本与序列长度呈线性关系。

状态空间模型（SSMs）可以理解为循环神经网络（RNN）的现代版，适合处理长序列信息并具备更高的状态表达能力。

作者认为Tokenization违背了深度学习的端到端学习精神，并且在多语言和多模态应用中实施困难，限制了模型的推理能力。

Mamba的成功得益于状态大小、状态表达能力和训练效率三个关键要素。

将SSMs与Transformer结合的最佳比例大约在3:1到10:1之间。

未来的方向可能是结合SSMs与Transformer的优势，开发能够直接处理原始数据的新架构。

🏷️

别把 Go 写成 Java：毁掉项目从过度架构开始
本文探讨了Go语言开发中的过度架构问题，强调应避免复杂的目录结构和不必要的抽象。建议采用扁平化的项目结构，按业务能力划分包，减少内部依赖，保持代码简单易懂...
请求的路径：现代网页架构之旅
现代网页架构中，用户请求在加载网页时可能经过多个系统，每一层都旨在处理流量，形成漏斗，确保大部分流量在到达数据库前已被处理。理解每一层的功能和权衡，有助于...
我们在2026年5月发布的最新AI新闻
谷歌在2026年5月推出了多个AI相关产品，包括Gemini 3.5和Gemini Omni，旨在提升日常生活便利性。新应用Google Health和F...
How OpenAI Built a Secure Windows Sandbox for Codex Agents
OpenAI details Codex Windows sandbox architecture, showing how SIDs, ACLs, re...
MAHA希望将棉花打造成新的牛脂
美国农业部推出“伟大的美国棉花计划”，旨在推广本土棉花，支持农民和国内制造业。尽管消费者对天然纤维服装的兴趣上升，但棉花生产面临高成本和化学品使用问题，且...
深入探讨语言模型的校准：Platt缩放、等距回归与温度缩放
大型语言模型（LLMs）普遍存在误校准问题，导致信心分数与实际正确率不符。传统的后处理校准方法包括温度缩放、Platt缩放和等距回归，但由于LLMs的复杂...