小红花·文摘

神经网络通过前向传播、损失计算、反向传播和梯度下降进行训练。每个神经元执行线性打分和非线性激活，多个神经元组成层，层与层之间的非线性使网络能够拟合复杂函数。递归神经网络（RNN）通过引入状态，克服了多层感知器（MLP）在序列任务中的局限性。训练过程是参数在损失曲面上逐步优化的过程。

【Transformer 与注意力机制】08.5 神经网络基础：从 MLP 到 RNN 的最后一块地基

土法炼钢兴趣小组的博客 ·

本文探讨了Transformer中的前馈网络（FFN），强调其在模型中的重要性。FFN占据了大约三分之二的参数量，是模型存储知识的主要部分。文章分析了FFN的结构、设计选择及其与注意力机制的关系，指出FFN负责每个token的内部计算，而注意力处理token间的通信。现代模型普遍采用SwiGLU替代ReLU，以提高性能。FFN的逐位置计算特性使其在推理时具有并行处理的优势，但也带来了量化时的挑战。整体来看，FFN在Transformer中扮演着核心角色。

【Transformer 与注意力机制】26｜前馈网络：那个看似平平无奇的两层 MLP，其实是「记忆」所在

土法炼钢兴趣小组的博客 ·

RLT——VLA引导的在线RL：极简MLP结构的Actor-Critic在“VLA浓缩Token感知与VLA参考动作先验”的双重加持下进行在线快速微调，最终从粗到细搞定拧螺丝和充电器插入

结构之法算法之道 ·

本文探讨了EmbodiedOneVision模型，该模型通过交错的视觉-文本-动作预训练，实现灵活的多模态推理与动作生成。EO-1采用统一架构，结合离散自回归解码与连续流匹配，提升机器人控制的泛化能力，并强调多模态数据的重要性，提出新的训练方法以优化推理与执行的整合。

EmbodiedOneVision——单个模型中集成离散自回归解码与连续流匹配去噪：Qwen 2.5 VL加两个MLP头完成具身推理、动作生成

结构之法算法之道 ·

本文介绍了VITAL策略学习框架，通过将操作任务分为到达和局部交互两个阶段，结合视觉和触觉感知，提高机器人在精细操作中的成功率和泛化能力。VITAL利用视觉-语言模型进行目标定位，并通过触觉反馈实现高精度操作，克服了模仿学习和强化学习的局限性。

VITAL——结合ResNet视觉与MLP触觉且带语义增强的适用于「电源插拔」的可泛化BC：先VLM定位、后执行在线残差RL微调的策略(MLP作为动作头)

结构之法算法之道 ·

本研究提出了一种混合深度学习模型——TCN-MLP-注意力架构，用于哈斯鳄梨价格预测。该模型结合时间卷积网络、全连接神经网络和注意力机制，显著提高了预测精度，均方根误差为1.23。

Avocado Price Prediction Using a Hybrid Deep Learning Model: TCN-MLP-Attention Architecture

BriefGPT - AI 论文速递 ·

本研究提出了TSKANMixer模型，将Kolmogorov-Arnold网络与时间序列混合器结合，以提高时间序列预测的准确性。实验结果表明，TSKANMixer在多个数据集上显著提升了预测性能，展示了KAN在增强传统多层感知器方面的潜力。

TSKANMixer: A Time Series Forecasting Model Combining Kolmogorov-Arnold Networks and MLP-Mixer

BriefGPT - AI 论文速递 ·

本研究提出了一种轻量级方法——重写样本化MLP（RSMLP），用于处理不完整话语重写任务。通过下采样策略提取潜在语义信息，从而提升理解能力。实验结果表明，RSMLP在数据集和实际应用中表现优异。

RSMLP: A Lightweight Sampled MLP Architecture for Incomplete Utterance Rewriting

BriefGPT - AI 论文速递 ·

本研究解决了现代神经网络架构在表格数据上相较于传统多层感知器（MLP）表现不佳的问题。通过引入GG MoE模型，我们的关键发现是该模型在38个数据集上表现优越，并且相比MLP，MoE和GG MoE显著减少了参数数量，这为提高模型效率提供了新的思路。

(GG) MoE与MLP在表格数据上的比较

BriefGPT - AI 论文速递 ·

本研究利用长短期记忆网络（LSTM）和多层感知机（MLP）分析帕金森病患者的语音信号特征，以提高早期诊断和疾病进展预测的准确性。结果表明，所选特征能有效预测疾病在2期和3期的进展。

Detection and Prediction of Parkinson's Disease Progression Based on Speech Signal Features: Application of Multi-Layer Perceptron and Long Short-Term Memory Networks

BriefGPT - AI 论文速递 ·

本研究提出了一种边分裂多层感知机（ES-MLP），旨在解决传统信息传播神经网络在异类图节点分类中的局限性。ES-MLP结合了图-MLP和边分裂机制，能够有效区分相关和不相关的特征对。实验结果表明，ES-MLP在性能上与现有模型相当，但推理速度提高了2到5倍。

Edge-Splitting MLP: Node Classification on Homophilic and Heterophilic Graphs without Message Passing

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，将基于注意力的多变量时间序列预测模型简化为多层感知机（MLP），通过前馈、跳跃连接和层归一化操作实现。结果显示，该方法显著降低了计算量，同时保持了可接受的性能，展示了其高效性和可行性。

Approximate Attention with MLP: A Pruning Strategy for Attention-Based Multivariate Time Series Forecasting Models

BriefGPT - AI 论文速递 ·

研究表明，Transformer模型中的多层感知器（MLP）可能不是必需的。通过计算机视觉测试，简化后的Transformer在去除MLP、合并矩阵和使用对称相似度矩阵后，参数减少90%，性能仍与原始模型相似。

Simplifying Transformer Architecture to the Minimum

BriefGPT - AI 论文速递 ·

大规模语言模型的加速 - 矩阵乘法

informal ·

本研究利用PPG信号和深度CNN-MLP网络方法进行压力检测，准确率约为82%，表明PPG信号在压力检测中具有重要应用潜力。

Stress Detection Using PPG Signal and Combined Deep CNN-MLP Network

BriefGPT - AI 论文速递 ·

该研究针对卷积神经网络在医学图像分割中对全局特征的适应性学习能力不足的问题，提出了一种新的动态分解混合器模块。通过在U型变换器架构中整合该模块，研究显示其在两个数据集上的分割性能优于其他先进的方法，具有显著的应用潜力。

动态分解的MLP混合器用于医学图像分割

BriefGPT - AI 论文速递 ·

科尔莫戈洛夫·阿诺德网络（KAN）作为多层感知器（MLP）的替代方案，展现出更高的准确性和可解释性，尤其在图回归任务中表现优异。通过DropKAN正则化方法，KAN的泛化性能得到提升。尽管计算成本较高，KAN在多个数据集上的表现与MLP相当，显示出广泛的应用潜力。

不规则或噪声函数上的KAN与MLP比较

BriefGPT - AI 论文速递 ·

反转了？在一场新较量中，号称替代MLP的KAN只赢一局

机器之心 ·

本研究探讨了Kolmogorov-Arnold Networks (KANs)作为多层感知器（MLPs）的替代方案，发现KANs在复杂数据处理和视觉任务中表现优越，尤其在医学图像分割和时间序列预测方面。尽管计算成本较高，但KANs在准确性和可解释性上具有潜力，能够减少训练数据需求并提高模型可靠性。研究还提出了改进KANs性能的方向。

KAN 或 MLP：公平比较

BriefGPT - AI 论文速递 ·

介绍了一种名为 Reconciled Polynomial...

RPN: 和解多项式网络：统一 PGM、Kernel SVM、MLP 和 KAN

BriefGPT - AI 论文速递 ·