小红花·文摘

神经网络通过前向传播、损失计算、反向传播和梯度下降进行训练。每个神经元执行线性打分和非线性激活，多个神经元组成层，层与层之间的非线性使网络能够拟合复杂函数。递归神经网络（RNN）通过引入状态，克服了多层感知器（MLP）在序列任务中的局限性。训练过程是参数在损失曲面上逐步优化的过程。

【Transformer 与注意力机制】08.5 神经网络基础：从 MLP 到 RNN 的最后一块地基

土法炼钢兴趣小组的博客 ·

本文介绍了机器学习中自动微分的实现方法，通过将复杂函数拆解为基本运算构建计算图，以精确高效地计算导数。文章还展示了反向传播、梯度更新及优化器的实现，并提供了一个类似PyTorch的开源框架。

自動微分 | DIY 實現自己的 PyTorch

Louis Aeilot's Blog ·

本文详细解析了Softmax损失的数学推导，重点在于线性分类器的梯度计算。通过前向传播和反向传播，推导出损失对logits、权重和偏置的梯度，并利用链式法则简化矩阵运算，帮助理解分类网络如何从错误中学习。

揭开Softmax损失的神秘面纱：线性分类器的逐步推导

Louis Aeilot's Blog ·

反向传播的主要目标是计算网络中每个权重和偏置的成本函数偏导数。通过矩阵形式简化推导，定义了激活向量、加权输入向量、权重矩阵和偏置向量等符号。推导过程包括输出层误差、隐藏层误差传播，以及偏置和权重的梯度计算，最终形成误差向量与输入激活向量的外积。

反向传播：向量微积分视角

Louis Aeilot's Blog ·

反向传播的主要目标是计算网络中每个权重和偏置的成本函数的偏导数。通过链式法则和矩阵微积分，推导出输出层和隐藏层的误差传播公式，以及对偏置和权重的梯度计算。最终，偏置的梯度等于误差向量，权重的梯度为误差向量与输入激活向量的外积。

反向传播：向量微积分视角

Louis Aeilot's Blog ·

本文介绍了神经网络的结构，包括输入层、输出层和多个隐藏层，并使用激活函数（如ReLU）引入非线性。反向传播通过计算梯度和链式法则，将误差从输出层向后传播以学习参数。

CS231n 讲义 IV：神经网络与反向传播

Louis Aeilot's Blog ·

本文介绍了神经网络及其反向传播算法。神经网络由输入层、输出层和多个隐藏层组成，使用激活函数（如ReLU）引入非线性。反向传播通过计算梯度优化网络参数，利用链式法则将误差从输出层传递到隐藏层。

CS231n 讲义 IV：神经网络与反向传播

Louis Aeilot's Blog ·

小猫都能懂的大模型原理 4 - 大语言模型架构

UsubeniFantasy ·

资源受限移动设备上大型语言模型的内存高效反向传播微调

Apple Machine Learning Research ·

本文提出随机变分传播（SVP），克服反向传播的局限性。SVP通过将层激活视为潜在变量，实现局部更新与全局一致性，显著降低内存使用，并在多个模型和数据集上达到与反向传播相当的准确性。

随机变分传播：局部、可扩展且高效的反向传播替代方法

BriefGPT - AI 论文速递 ·

本文探讨了生成性人工智能的训练与推理过程。训练通过前向传播和反向传播优化模型，类似于人脑的学习方式；推理则利用训练阶段获得的知识处理未标记数据，生成准确的输出。训练与推理相辅相成，提升人工智能的智能化和有效性。

训练与推理：终极联盟

KDnuggets ·

🚀 使用NumPy从零开始构建神经网络 🤖

DEV Community ·

本研究探讨了代数模型计数在学习中的应用，特别是在统计关系和神经符号AI领域。通过推广半环视角，整合多种学习算法，提升反向传播的内存效率，实验结果表明代数反向传播在速度上优于现有方法。

The Gradient of Algebraic Model Counting

BriefGPT - AI 论文速递 ·

微梯度中的神经元建模（卡尔帕提解释）

DEV Community ·

从零开始解锁神经网络的力量！

DEV Community ·

反向传播详解 - 卡尔帕西的解释

DEV Community ·

从零开始理解反向传播与micrograd - 导数

DEV Community ·

本研究提出TESS，旨在解决脉冲神经网络在资源有限设备上训练时的高计算和内存需求问题。TESS基于生物机制，采用时空局部学习规则，使计算和内存开销与神经元数量线性相关，性能接近传统反向传播算法，适合边缘设备的高效学习。

TESS: A Scalable Spatiotemporal Local Learning Rule for Spiking Neural Networks

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的分层Kolmogorov-Arnold网络（HKAN）架构，解决了现有KAN依赖反向传播的问题。HKAN通过随机学习优化参数，采用线性回归简化计算，展现出与KAN相当或更优的准确性和稳定性。

无反向传播的分层Kolmogorov-Arnold网络

BriefGPT - AI 论文速递 ·

本研究提出了一种新训练方法，解决神经网络层宽度选择问题，允许在训练过程中自适应调整层宽度，通过反向传播优化宽度与参数，实现性能与计算资源的平衡。

自适应宽度神经网络

BriefGPT - AI 论文速递 ·