土法炼钢兴趣小组的博客 ·

【Transformer 与注意力机制】26｜前馈网络：那个看似平平无奇的两层 MLP，其实是「记忆」所在

💡 原文中文，约29300字，阅读约需70分钟。

📝

内容提要

本文探讨了Transformer中的前馈网络（FFN），强调其在模型中的重要性。FFN占据了大约三分之二的参数量，是模型存储知识的主要部分。文章分析了FFN的结构、设计选择及其与注意力机制的关系，指出FFN负责每个token的内部计算，而注意力处理token间的通信。现代模型普遍采用SwiGLU替代ReLU，以提高性能。FFN的逐位置计算特性使其在推理时具有并行处理的优势，但也带来了量化时的挑战。整体来看，FFN在Transformer中扮演着核心角色。

🎯

关键要点

前馈网络（FFN）占Transformer模型参数量的三分之二，是模型存储知识的主要部分。
FFN的结构是两层MLP，第一层将维度从d升到4d，经过ReLU激活后再压回d。
FFN负责每个token的内部计算，而注意力机制处理token间的通信。
现代模型普遍采用SwiGLU替代ReLU，以提高性能，SwiGLU的d_ff设为8d/3。
FFN的逐位置计算特性使其在推理时具有并行处理的优势，但在量化时面临挑战。
FFN的设计选择包括两层结构和4倍扩张比，这些选择有实证依据。
FFN被视为键值记忆，能够存储模型学到的事实和模式。
FFN的计算可以无成本地并行，适合在GPU上高效运行。
FFN在推理阶段是带宽瓶颈，无法缓存历史计算结果。
FFN的激活值分布呈现厚尾特性，导致量化时处理困难。

❓

延伸问答

前馈网络（FFN）在Transformer模型中占据什么样的地位？

FFN占Transformer模型参数量的三分之二，是模型存储知识的主要部分。

FFN的结构是怎样的？

FFN由两层MLP组成，第一层将维度从d升到4d，经过ReLU激活后再压回d。

FFN与注意力机制的主要区别是什么？

FFN负责每个token的内部计算，而注意力机制处理token间的通信。

现代模型为何普遍采用SwiGLU替代ReLU？

SwiGLU提高了性能，能够更好地处理激活值分布的问题。

FFN在推理阶段的计算特性是什么？

FFN的逐位置计算特性使其在推理时具有并行处理的优势，但在量化时面临挑战。

FFN的激活值分布有什么特点？

FFN的激活值分布呈现厚尾特性，导致量化时处理困难。

🏷️

继续阅读

提高文本处理和实体识别效率的三种SpaCy技巧
本文探讨了优化spaCy以提高自然语言处理效率的三种技巧：选择性加载和禁用组件以减少计算开销，使用nlp.pipe进行高吞吐量批处理以利用多核并行处理，以...
智源&清华合作成果登上Science：脑科学多模态基础模型Brainμ支撑揭示“记忆-睡眠”调控的神经机制
研究表明，睡眠中的记忆重激活影响睡眠动态，提供了“记忆-睡眠”双向作用的新证据。智源研究院与清华大学的研究发现，负向记忆再激活加剧睡眠碎片化，而正向记忆再...
知识图谱+本地存储：开源Mnemo给AI配的长期记忆中枢
Mnemo是为大语言模型设计的本地优先长期记忆层，旨在解决AI每次会话忘记上下文的问题。它通过构建知识图谱存储历史对话和信息，帮助AI在后续提问中自动召回...
20260605的胡言乱语
本文介绍了多种技术工具和方法，包括YAMLResume简历管理工具、终端中的cal命令、Shlink短链接服务、systemd timers替代cron、...
随想 - 20260605
本文介绍了多个技术主题，包括YAML简历管理工具、快速日历命令、MacBook加热技巧、自托管URL缩短器Shlink、将智能手机转为功能手机的体验、sy...
这是你的笔记本电脑……在人工智能时代
在开发者大会上，大型科技公司强调人工智能将改变工作方式。Nvidia的黄仁勋介绍了新型笔记本电脑的使用方式。尽管AI产品不断涌现，人们仍在思考这些变化的必...