小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

神经网络通过前向传播、损失计算、反向传播和梯度下降进行训练。每个神经元执行线性打分和非线性激活,多个神经元组成层,层与层之间的非线性使网络能够拟合复杂函数。递归神经网络(RNN)通过引入状态,克服了多层感知器(MLP)在序列任务中的局限性。训练过程是参数在损失曲面上逐步优化的过程。

【Transformer 与注意力机制】08.5 神经网络基础:从 MLP 到 RNN 的最后一块地基

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-05-10T00:00:00Z

本文探讨了Transformer中的前馈网络(FFN),强调其在模型中的重要性。FFN占据了大约三分之二的参数量,是模型存储知识的主要部分。文章分析了FFN的结构、设计选择及其与注意力机制的关系,指出FFN负责每个token的内部计算,而注意力处理token间的通信。现代模型普遍采用SwiGLU替代ReLU,以提高性能。FFN的逐位置计算特性使其在推理时具有并行处理的优势,但也带来了量化时的挑战。整体来看,FFN在Transformer中扮演着核心角色。

【Transformer 与注意力机制】26|前馈网络:那个看似平平无奇的两层 MLP,其实是「记忆」所在

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z
RLT——VLA引导的在线RL:极简MLP结构的Actor-Critic在“VLA浓缩Token感知与VLA参考动作先验”的双重加持下进行在线快速微调,最终从粗到细搞定拧螺丝和充电器插入

本文讨论了一种轻量级的在线强化学习方法,用于微调视觉-语言-动作模型。研究者通过引入“RL token”提高样本效率,使得模型能够快速适应真实世界任务。该方法结合冻结的VLA和小型actor-critic网络,优化关键任务阶段的表现,旨在实现高效的在线微调,同时保持泛化能力。

RLT——VLA引导的在线RL:极简MLP结构的Actor-Critic在“VLA浓缩Token感知与VLA参考动作先验”的双重加持下进行在线快速微调,最终从粗到细搞定拧螺丝和充电器插入

结构之法 算法之道
结构之法 算法之道 · 2026-03-26T03:44:34Z

本文探讨了EmbodiedOneVision模型,该模型通过交错的视觉-文本-动作预训练,实现灵活的多模态推理与动作生成。EO-1采用统一架构,结合离散自回归解码与连续流匹配,提升机器人控制的泛化能力,并强调多模态数据的重要性,提出新的训练方法以优化推理与执行的整合。

EmbodiedOneVision——单个模型中集成离散自回归解码与连续流匹配去噪:Qwen 2.5 VL加两个MLP头完成具身推理、动作生成

结构之法 算法之道
结构之法 算法之道 · 2025-09-07T14:02:10Z

本文介绍了VITAL策略学习框架,通过将操作任务分为到达和局部交互两个阶段,结合视觉和触觉感知,提高机器人在精细操作中的成功率和泛化能力。VITAL利用视觉-语言模型进行目标定位,并通过触觉反馈实现高精度操作,克服了模仿学习和强化学习的局限性。

VITAL——结合ResNet视觉与MLP触觉且带语义增强的适用于「电源插拔」的可泛化BC:先VLM定位、后执行在线残差RL微调的策略(MLP作为动作头)

结构之法 算法之道
结构之法 算法之道 · 2025-07-03T09:01:43Z

本研究提出了一种混合深度学习模型——TCN-MLP-注意力架构,用于哈斯鳄梨价格预测。该模型结合时间卷积网络、全连接神经网络和注意力机制,显著提高了预测精度,均方根误差为1.23。

Avocado Price Prediction Using a Hybrid Deep Learning Model: TCN-MLP-Attention Architecture

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-15T00:00:00Z

本研究提出了TSKANMixer模型,将Kolmogorov-Arnold网络与时间序列混合器结合,以提高时间序列预测的准确性。实验结果表明,TSKANMixer在多个数据集上显著提升了预测性能,展示了KAN在增强传统多层感知器方面的潜力。

TSKANMixer: A Time Series Forecasting Model Combining Kolmogorov-Arnold Networks and MLP-Mixer

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-25T00:00:00Z

本研究提出了一种轻量级方法——重写样本化MLP(RSMLP),用于处理不完整话语重写任务。通过下采样策略提取潜在语义信息,从而提升理解能力。实验结果表明,RSMLP在数据集和实际应用中表现优异。

RSMLP: A Lightweight Sampled MLP Architecture for Incomplete Utterance Rewriting

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-18T00:00:00Z

本研究解决了现代神经网络架构在表格数据上相较于传统多层感知器(MLP)表现不佳的问题。通过引入GG MoE模型,我们的关键发现是该模型在38个数据集上表现优越,并且相比MLP,MoE和GG MoE显著减少了参数数量,这为提高模型效率提供了新的思路。

(GG) MoE与MLP在表格数据上的比较

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-05T00:00:00Z

本研究利用长短期记忆网络(LSTM)和多层感知机(MLP)分析帕金森病患者的语音信号特征,以提高早期诊断和疾病进展预测的准确性。结果表明,所选特征能有效预测疾病在2期和3期的进展。

Detection and Prediction of Parkinson's Disease Progression Based on Speech Signal Features: Application of Multi-Layer Perceptron and Long Short-Term Memory Networks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-24T00:00:00Z

本研究提出了一种边分裂多层感知机(ES-MLP),旨在解决传统信息传播神经网络在异类图节点分类中的局限性。ES-MLP结合了图-MLP和边分裂机制,能够有效区分相关和不相关的特征对。实验结果表明,ES-MLP在性能上与现有模型相当,但推理速度提高了2到5倍。

Edge-Splitting MLP: Node Classification on Homophilic and Heterophilic Graphs without Message Passing

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z

本研究提出了一种新方法,将基于注意力的多变量时间序列预测模型简化为多层感知机(MLP),通过前馈、跳跃连接和层归一化操作实现。结果显示,该方法显著降低了计算量,同时保持了可接受的性能,展示了其高效性和可行性。

Approximate Attention with MLP: A Pruning Strategy for Attention-Based Multivariate Time Series Forecasting Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-31T00:00:00Z

研究表明,Transformer模型中的多层感知器(MLP)可能不是必需的。通过计算机视觉测试,简化后的Transformer在去除MLP、合并矩阵和使用对称相似度矩阵后,参数减少90%,性能仍与原始模型相似。

Simplifying Transformer Architecture to the Minimum

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z
大规模语言模型的加速 - 矩阵乘法

文章介绍了torchview工具用于解析模型推理和训练过程,支持多种模型如MLP和BERT,展示节点的输入输出形状及关系。但torchview无法优化某些特殊模块如llamaAttention。尽管如此,矩阵乘法优化仍适用于其他模块。作者反思复杂思考方式,强调简单想法通常不适用。

大规模语言模型的加速 - 矩阵乘法

informal
informal · 2024-10-16T16:00:00Z

本研究利用PPG信号和深度CNN-MLP网络方法进行压力检测,准确率约为82%,表明PPG信号在压力检测中具有重要应用潜力。

Stress Detection Using PPG Signal and Combined Deep CNN-MLP Network

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z

该研究针对卷积神经网络在医学图像分割中对全局特征的适应性学习能力不足的问题,提出了一种新的动态分解混合器模块。通过在U型变换器架构中整合该模块,研究显示其在两个数据集上的分割性能优于其他先进的方法,具有显著的应用潜力。

动态分解的MLP混合器用于医学图像分割

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-13T00:00:00Z

科尔莫戈洛夫·阿诺德网络(KAN)作为多层感知器(MLP)的替代方案,展现出更高的准确性和可解释性,尤其在图回归任务中表现优异。通过DropKAN正则化方法,KAN的泛化性能得到提升。尽管计算成本较高,KAN在多个数据集上的表现与MLP相当,显示出广泛的应用潜力。

不规则或噪声函数上的KAN与MLP比较

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-15T00:00:00Z
反转了?在一场新较量中,号称替代MLP的KAN只赢一局

KAN是一种新的符号表示中的替代方法,具有更好的准确性和可解释性,参数更少。然而,在公平比较中,MLP通常在机器学习、计算机视觉、自然语言处理和音频处理等任务中优于KAN。差异在于激活函数,KAN使用B样条函数。KAN在符号表示任务中表现更好,但MLP在其他任务中通常更优。KAN和MLP在连续学习任务中的性能相似。KAN和MLP的主要区别在于激活函数和线性和非线性操作的顺序。在大多数任务中,MLP仍然是更好的选择。

反转了?在一场新较量中,号称替代MLP的KAN只赢一局

机器之心
机器之心 · 2024-07-27T15:17:53Z

本研究探讨了Kolmogorov-Arnold Networks (KANs)作为多层感知器(MLPs)的替代方案,发现KANs在复杂数据处理和视觉任务中表现优越,尤其在医学图像分割和时间序列预测方面。尽管计算成本较高,但KANs在准确性和可解释性上具有潜力,能够减少训练数据需求并提高模型可靠性。研究还提出了改进KANs性能的方向。

KAN 或 MLP:公平比较

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-23T00:00:00Z

介绍了一种名为 Reconciled Polynomial...

RPN: 和解多项式网络:统一 PGM、Kernel SVM、MLP 和 KAN

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-05T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码