量子位 ·

谁是大模型架构新王者？｜量子位智库

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

大模型架构正处于“后Transformer时代”的创新竞赛，重点在于Transformer的改进和非Transformer的探索。Attention机制和FFN层的优化是研究热点，而新型RNN架构逐渐成为主流。行业对架构创新的看法分为两派，未来主流架构需突破10B、20B和100B规模。

🎯

🔎

后Transformer时代的到来意味着大模型架构面临新的挑战，尤其是在推理成本和算力瓶颈方面。行业内对Transformer架构的争议促使研究者探索新的架构，这为非Transformer架构的崛起提供了机遇。未来的创新可能会在这些新兴架构中找到突破口。

当前大模型架构的创新呈现出双轨竞速的态势：一方面是对Transformer的持续改进，另一方面是非Transformer架构的快速发展。关注这两条路径的进展，将有助于理解未来大模型的演变方向及其在实际应用中的潜力。

行业内普遍认为，下一代主流架构需要在10B、20B和100B规模上实现突破。目前大多数创新仍停留在10B阶段，未来的技术进步将决定谁能在这一领域取得领先。关注这些规模的突破，将是判断未来架构发展的关键。

❓

后Transformer时代的主要特点是架构创新的双轨竞速，包括Transformer的改进和非Transformer架构的探索。

Transformer架构的不足包括推理成本高和算力瓶颈。

Attention机制的改进主要分为稀疏Attention和线性Attention两大技术方向。

新型RNN架构的优势在于其计算复杂度为线性复杂度，能够在控制算力开销的同时提供同等性能。

行业对大模型架构创新的看法主要分为两派，一派认为是技术迭代，另一派则关注智能普惠的追求。

下一代主流架构需要突破10B、20B和100B的规模。

🏷️