小红花·文摘 - 小红花技术领袖俱乐部

本文探讨了Transformer中的前馈网络（FFN），强调其在模型中的重要性。FFN占据了大约三分之二的参数量，是模型存储知识的主要部分。文章分析了FFN的结构、设计选择及其与注意力机制的关系，指出FFN负责每个token的内部计算，而注意力处理token间的通信。现代模型普遍采用SwiGLU替代ReLU，以提高性能。FFN的逐位置计算特性使其在推理时具有并行处理的优势，但也带来了量化时的挑战。整体来看，FFN在Transformer中扮演着核心角色。

【Transformer 与注意力机制】26｜前馈网络：那个看似平平无奇的两层 MLP，其实是「记忆」所在

土法炼钢兴趣小组的博客 ·

变换器模型中的线性层和激活函数

变换器模型中的线性层和激活函数

MachineLearningMastery.com ·

本研究提出UMoE架构，解决了Transformer模型中注意力层与前馈网络性能差异的问题，提高了参数共享效率和整体性能。

UMoE: Unified Attention Mechanism and Feedforward Network through Shared Experts

BriefGPT - AI 论文速递 ·

Duo-LLM：大型语言模型中自适应计算研究框架

Duo-LLM：大型语言模型中自适应计算研究框架

Apple Machine Learning Research ·

该研究提出了一种名为3DPE的实用工具，能够高效编辑人脸图像。该系统使用前馈网络实现实时编辑，比竞争者快100倍以上。通过先验知识，系统能够学习和编辑相关变化，并在推断过程中快速适应用户指定的新型编辑。代码、模型和界面将公开提供。

基于单张图像的实时三维感知肖像编辑

BriefGPT - AI 论文速递 ·

本研究比较了变形器模型与其他架构的优势和劣势，发现变形器的复杂性随输入规模的对数增长，而循环网络和前馈网络的复杂性随输入规模的增大多项式增长。研究还证明了稀疏平均任务在变形器中的重要性，并提出了解决注意力层复杂性的方法。

Transformer, 并行计算，和对数深度

BriefGPT - AI 论文速递 ·

文章介绍了一种新的iTransformer模型，用于多变量时间序列预测，通过反转注意力机制和前馈网络的职责，取得了最先进的表现，成为时间序列预测的基本骨干的一个很好的替代方案。

适用于不规则采样的多变量时间序列的兼容式 Transformer

BriefGPT - AI 论文速递 ·

该研究提出了ReLU层参数对输入域的自然划分，使得在每个划分区域内，ReLU层可以大大简化。研究探讨了具有一个隐藏ReLU层的前馈网络，提供了关于此类网络生成决策边界的几何复杂性的结果，并证明除了仿射变换外，这样的网络只能生成d个不同的决策边界。

完全连接 ReLU 层的几何结构

BriefGPT - AI 论文速递 ·

本研究证明预训练网络在复杂结构的网络中实现本地稳定性是有效的，并提出了一种称为本地稳定条件（LSC）的理论。实验结果表明，满足LSC的前馈和递归网络能提高最终性能。该研究为实现任意复杂度的网络的稳定性提供了一种方法，可作为预训练之前的附加步骤，也可作为找到稳定初始状态的替代方法。

通过预训练稳定 RNN 梯度

BriefGPT - AI 论文速递 ·

该论文提出了一种基于Transformer的图像去雨算法，通过自注意力机制和前馈网络提高去雨效果。实验证明了该方法的有效性。

学习图像去雨变换网络 with 动态双自注意力

BriefGPT - AI 论文速递 ·