小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

神经网络通过前向传播、损失计算、反向传播和梯度下降进行训练。每个神经元执行线性打分和非线性激活,多个神经元组成层,层与层之间的非线性使网络能够拟合复杂函数。递归神经网络(RNN)通过引入状态,克服了多层感知器(MLP)在序列任务中的局限性。训练过程是参数在损失曲面上逐步优化的过程。

【Transformer 与注意力机制】08.5 神经网络基础:从 MLP 到 RNN 的最后一块地基

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-05-10T00:00:00Z
Cell研究:加速TMS抗抑郁的真正核心是前额叶到岛叶回路

最新研究发现,快速抗抑郁的关键在于前额叶与岛叶的连接。经颅磁刺激(TMS)通过激活这一回路,显著提升情绪网络功能。研究表明,刺激前额叶后岛叶被激活,若切断连接则抗抑郁效果消失。这一发现可能改变抑郁症的治疗方法,未来将更注重神经网络的精准调控。

Cell研究:加速TMS抗抑郁的真正核心是前额叶到岛叶回路

极道
极道 · 2026-05-08T13:03:00Z
ParaRNN:大规模非线性递归神经网络,可并行训练

苹果研究人员提出了ParaRNN框架,显著提高了非线性递归神经网络(RNN)的训练效率,实现了大规模并行训练。该方法使得7亿参数的RNN在语言建模任务中表现出与变换器相当的性能,且通过引入牛顿法,ParaRNN在保持非线性表达能力的同时实现了高效的并行计算。这一进展为RNN的广泛应用和进一步研究提供了新的可能性。

ParaRNN:大规模非线性递归神经网络,可并行训练

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-23T00:00:00Z

最近发布了用Rust编写的轻量级自动微分库ferris-grad。该库具有PyTorch风格的自动求导引擎,核心代码不到1000行,且无外部依赖。实现包括标量计算图、张量操作和神经网络层,支持训练多层感知机和mini GPT。项目灵感来源于Karpathy的micrograd和microgpt,欢迎参与贡献。

1000行Rust实现一个类似pytorch的轻量级自动微分库

Rust.cc
Rust.cc · 2026-04-19T14:10:58Z

激活函数在神经网络中引入非线性,使网络能够拟合复杂关系。最早的Sigmoid函数因其可导性被广泛使用,但存在梯度消失问题。Tanh函数有所改进,但仍未解决深层网络训练困难。ReLU函数的出现解决了梯度消失问题,但引入了Dying ReLU现象。后续的激活函数如Leaky ReLU、ELU、GELU和SwiGLU等不断优化,以适应不同任务需求。激活函数的选择直接影响网络的训练效果和性能。

【Transformer 与注意力机制】05. 激活函数:让网络「弯下来」的非线性魔法

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

神经网络本质上是一个函数,通过输入输出结果来工作。训练过程是调整参数以使输出接近预期。深度学习利用多层结构和非线性激活函数来拟合复杂关系,能够有效处理高维数据。理解神经网络的关键在于明确输入、输出和参数的关系。

【Transformer 与注意力机制】04. 函数与神经网络:从 y=f(x) 到一台可学习的拟合机器

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z
DDPM笔记

DDPM(去噪扩散概率模型)通过逐步添加噪声生成图像,利用神经网络预测并去除噪声。模型依赖高斯分布,损失函数使用均方误差(MSE)衡量真实噪声与预测噪声的差异。训练过程中,模型优化以提升生成图像质量,最终通过积分将预测的高斯分布转化为清晰图像。

DDPM笔记

plus studio
plus studio · 2026-04-11T00:00:00Z
从递归神经网络到变换器

自然语言处理经历了巨大的演变,传统的序列到序列模型依赖递归神经网络(RNN),但在处理长序列时存在信息瓶颈。为了解决这一问题,引入了注意力机制,使解码器能够动态关注输入序列的不同部分。现代的Transformer模型通过堆叠注意力层,能够高效处理复杂的序列数据,广泛应用于文本生成和图像处理等领域。

从递归神经网络到变换器

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-04-07T22:30:09Z

递归神经网络(RNN)用于处理序列数据,具备内部状态(记忆),适应多种输入输出结构。RNN通过递归公式更新隐藏状态并生成输出。长短期记忆(LSTM)通过门控机制解决梯度消失问题,增强信息流动。

CS231n 讲义 VII:递归神经网络

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-04-07T13:30:09Z
【TVM教程】理解 Relax 抽象层

Apache TVM 更新至 0.21.0 版本,中文文档已同步。TVM 是一个深度学习编译框架,支持多种硬件。Relax 是其图抽象方式,用于优化机器学习模型。文章介绍了如何使用 Relax 表达神经网络模型的结构与数据流,并提供了高层与底层实现的代码示例,强调数据流块和无副作用函数的重要性,以便于编译器优化。

【TVM教程】理解 Relax 抽象层

HyperAI超神经
HyperAI超神经 · 2026-04-07T02:46:11Z

本文讨论了卷积神经网络(CNN)的架构和训练方法,包括归一化层、正则化(如Dropout)、激活函数(如ReLU和GELU)、残差网络(ResNet)和权重初始化(Kaiming初始化)。还介绍了数据预处理、数据增强、迁移学习策略及超参数优化步骤,强调系统调试的重要性,指出大多数失败源于基本设置问题,而非超参数选择。

CS231n 讲义 VI:卷积神经网络架构与训练

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-04-03T14:45:09Z
CS231n 讲义 V:卷积神经网络基础

卷积神经网络(CNN)通过提取图像特征,解决了传统神经网络在处理大图像时的过拟合和忽视空间结构的问题。CNN由卷积层、池化层和全连接层组成,逐步将原始像素转换为分类分数。卷积层使用可学习的滤波器进行线性操作,池化层通过下采样降低特征图的空间分辨率,同时保持特征的平移不变性。

CS231n 讲义 V:卷积神经网络基础

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-04-02T14:45:09Z
[实验性] 有开发者破解苹果ANE神经网络引擎 原来M4芯片也能直接训练小模型

开发者通过逆向工程破解了苹果的ANE神经网络引擎,使其能够在M4芯片上训练小型AI模型。尽管目前只能训练极小规模的模型,但未来个人设备可能实现自我学习,减少对云端的依赖。

[实验性] 有开发者破解苹果ANE神经网络引擎 原来M4芯片也能直接训练小模型

蓝点网
蓝点网 · 2026-03-04T00:30:28Z
苹果推出搭载M4芯片的新款iPad Air 采用16核神经网络引擎核12GB内存

苹果推出新款 iPad Air,搭载 M4 芯片,配备 12GB 内存和 16 核心神经网络引擎,提供 11 和 13 英寸版本。11 英寸 Wi-Fi 版起售价 599 美元,预售时间为 3 月 4 日,正式发售 3 月 11 日。

苹果推出搭载M4芯片的新款iPad Air 采用16核神经网络引擎核12GB内存

蓝点网
蓝点网 · 2026-03-02T15:13:10Z
解决简街的“掉落的神经网络”难题

简街2026年1月的难题“掉落的神经网络”要求将97个散落的神经网络组件重新组合,解决方案包括配对和排序。通过Gumbel-Sinkhorn框架实现可微分排列学习,最终均方误差降至0。配对修正能有效触发排序改进,插入操作优于交换。

解决简街的“掉落的神经网络”难题

Yi's blog
Yi's blog · 2026-02-16T20:00:00Z

本文介绍了神经网络及其反向传播算法。神经网络由输入层、输出层和多个隐藏层组成,使用激活函数(如ReLU)引入非线性。反向传播通过计算梯度优化网络参数,利用链式法则将误差从输出层传递到隐藏层。

CS231n 讲义 IV:神经网络与反向传播

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-02-13T20:45:09Z

本文介绍了神经网络的结构,包括输入层、输出层和多个隐藏层,并使用激活函数(如ReLU)引入非线性。反向传播通过计算梯度和链式法则,将误差从输出层向后传播以学习参数。

CS231n 讲义 IV:神经网络与反向传播

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-02-13T20:45:09Z
告别N卡CUDA垄断,Windows+AMD显卡ROCm跑深度学习:手把手实现 MNIST 手写数字识别 - 曦远Code

本文介绍了在Windows系统和AMD显卡上成功编译ROCm版本的PyTorch,并通过MNIST手写数字识别脚本验证其性能。文章讲解了神经网络的基本概念,比较了前馈神经网络(FNN)与卷积神经网络(CNN)的区别,强调了CNN在图像处理中的优势。最后,展示了如何安装PyTorch、定义模型、准备数据并进行训练,成功实现了在AMD GPU上的训练过程。

告别N卡CUDA垄断,Windows+AMD显卡ROCm跑深度学习:手把手实现 MNIST 手写数字识别 - 曦远Code

程序设计实验室
程序设计实验室 · 2026-02-06T07:54:00Z
U-Net 解析:初学者的视觉指南

U-Net是一种用于医学图像分割的神经网络架构,通过编码器压缩图像并通过解码器恢复图像,同时利用跳跃连接保留空间细节,因而在像素级任务中表现优异。

U-Net 解析:初学者的视觉指南

Yi's blog
Yi's blog · 2026-02-03T18:00:00Z
提升你的机器学习技能:安德鲁·吴课程后的行动指南

在安德鲁·吴的机器学习课程后,提升技能的关键在于重建神经网络的思维模型,理解架构而非仅仅算法,处理真实复杂数据。学习调试和评估模型,掌握数据预处理和实验记录,理解语言模型的基本原理,选择具有挑战性的项目以增强能力。

提升你的机器学习技能:安德鲁·吴课程后的行动指南

MachineLearningMastery.com
MachineLearningMastery.com · 2026-01-26T17:09:50Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码