【Transformer 与注意力机制】04. 函数与神经网络:从 y=f(x) 到一台可学习的拟合机器

💡 原文中文,约31000字,阅读约需74分钟。
📝

内容提要

神经网络本质上是一个函数,通过输入输出结果来工作。训练过程是调整参数以使输出接近预期。深度学习利用多层结构和非线性激活函数来拟合复杂关系,能够有效处理高维数据。理解神经网络的关键在于明确输入、输出和参数的关系。

🎯

关键要点

  • 神经网络本质上是一个函数,通过输入输出结果来工作。

  • 训练过程是调整参数以使输出接近预期。

  • 深度学习利用多层结构和非线性激活函数来拟合复杂关系,能够有效处理高维数据。

  • 理解神经网络的关键在于明确输入、输出和参数的关系。

  • 深度学习的做法是用一个非常灵活的函数空间去逼近未知的函数。

  • 现代的函数可以处理多维向量,输入输出都是向量、矩阵或张量。

  • 线性变换是神经网络中最基本的积木,公式为y = W * x + b。

  • 仅有线性变换不足以拟合复杂关系,必须引入非线性激活函数。

  • 两层网络是第一个能拟合任意复杂函数的结构,称为万能逼近定理。

  • 深度网络通过层次化特征复用来提高表达能力。

  • 宽度和深度的选择影响模型的表现,深度通常更高效。

  • 参数和超参数是神经网络中的两类不同旋钮,参数通过训练学习,超参数人为设定。

  • 损失函数用于衡量网络输出与真实值的差距,指导参数调整。

  • 梯度下降是优化算法,通过负梯度方向调整参数以最小化损失。

  • 反向传播是计算梯度的高效方法,利用链式法则逐层计算。

  • 神经网络的函数空间足够大,但过拟合是一个问题,需要归纳偏置来限制函数空间。

  • 神经网络的名字源于生物神经元,但其复杂性远不及生物神经元。

  • 神经网络与传统机器学习的关系在于特征工程和模型的结合。

  • 计算图是神经网络的可视化工具,反向传播依赖于计算图的结构。

  • 深度学习的成功依赖于理论、数据、算力和工程的结合。

延伸问答

神经网络的基本结构是什么?

神经网络的基本结构是由输入层、隐藏层和输出层组成,每层通过线性变换和非线性激活函数连接。

训练神经网络的过程是怎样的?

训练神经网络的过程是通过调整参数,使得网络输出接近预期值,通常使用梯度下降法来优化损失函数。

什么是万能逼近定理?

万能逼近定理表明,两层网络可以逼近任何连续函数,只要隐藏层的神经元数量足够多。

神经网络如何处理高维数据?

神经网络通过多层结构和非线性激活函数,能够有效地处理高维数据,将输入映射到输出。

损失函数在神经网络中的作用是什么?

损失函数用于衡量网络输出与真实值之间的差距,指导参数的调整以优化模型性能。

什么是反向传播算法?

反向传播算法是一种高效计算梯度的方法,通过链式法则逐层计算,从输出层向输入层反向传播误差。

➡️

继续阅读