小红花·文摘

大模型架构正处于“后Transformer时代”的创新竞赛，重点在于Transformer的改进和非Transformer的探索。Attention机制和FFN层的优化是研究热点，而新型RNN架构逐渐成为主流。行业对架构创新的看法分为两派，未来主流架构需突破10B、20B和100B规模。