土法炼钢兴趣小组的博客 ·

【Transformer 与注意力机制】04. 函数与神经网络：从 y=f(x) 到一台可学习的拟合机器

💡 原文中文，约31000字，阅读约需74分钟。

📝

内容提要

神经网络本质上是一个函数，通过输入输出结果来工作。训练过程是调整参数以使输出接近预期。深度学习利用多层结构和非线性激活函数来拟合复杂关系，能够有效处理高维数据。理解神经网络的关键在于明确输入、输出和参数的关系。

🎯

关键要点

神经网络本质上是一个函数，通过输入输出结果来工作。
训练过程是调整参数以使输出接近预期。
深度学习利用多层结构和非线性激活函数来拟合复杂关系，能够有效处理高维数据。
理解神经网络的关键在于明确输入、输出和参数的关系。
深度学习的做法是用一个非常灵活的函数空间去逼近未知的函数。
现代的函数可以处理多维向量，输入输出都是向量、矩阵或张量。
线性变换是神经网络中最基本的积木，公式为y = W * x + b。
仅有线性变换不足以拟合复杂关系，必须引入非线性激活函数。
两层网络是第一个能拟合任意复杂函数的结构，称为万能逼近定理。
深度网络通过层次化特征复用来提高表达能力。
宽度和深度的选择影响模型的表现，深度通常更高效。
参数和超参数是神经网络中的两类不同旋钮，参数通过训练学习，超参数人为设定。
损失函数用于衡量网络输出与真实值的差距，指导参数调整。
梯度下降是优化算法，通过负梯度方向调整参数以最小化损失。
反向传播是计算梯度的高效方法，利用链式法则逐层计算。
神经网络的函数空间足够大，但过拟合是一个问题，需要归纳偏置来限制函数空间。
神经网络的名字源于生物神经元，但其复杂性远不及生物神经元。
神经网络与传统机器学习的关系在于特征工程和模型的结合。
计算图是神经网络的可视化工具，反向传播依赖于计算图的结构。
深度学习的成功依赖于理论、数据、算力和工程的结合。

🔎

延伸解读

神经网络的函数视角

理解神经网络的本质是将其视为一个函数，输入和输出之间的关系通过可调参数来实现。这个视角帮助我们简化复杂的概念，专注于输入、输出和参数的关系，从而更好地理解网络的工作原理。

深度与宽度的权衡

在设计神经网络时，深度和宽度的选择至关重要。深度网络通常能更高效地表达复杂函数，但过深可能导致训练不稳定。相对而言，宽度的增加也能提升模型能力，但需注意参数的过拟合风险。

过拟合与归纳偏置

神经网络的强大表达能力也带来了过拟合的风险。通过引入归纳偏置，可以限制模型的复杂性，帮助其在训练集和测试集上都表现良好。不同的网络结构如CNN和RNN具有不同的归纳偏置，适用于不同类型的数据。

损失函数与优化过程

损失函数在神经网络训练中起着关键作用，它衡量模型输出与真实值之间的差距。通过梯度下降等优化算法，模型不断调整参数以最小化损失，从而实现学习。理解这一过程是掌握深度学习的基础。

❓

延伸问答

神经网络的基本结构是什么？

神经网络的基本结构是由输入层、隐藏层和输出层组成，每层通过线性变换和非线性激活函数连接。

训练神经网络的过程是怎样的？

训练神经网络的过程是通过调整参数，使得网络输出接近预期值，通常使用梯度下降法来优化损失函数。

什么是万能逼近定理？

万能逼近定理表明，两层网络可以逼近任何连续函数，只要隐藏层的神经元数量足够多。

神经网络如何处理高维数据？

神经网络通过多层结构和非线性激活函数，能够有效地处理高维数据，将输入映射到输出。

损失函数在神经网络中的作用是什么？

损失函数用于衡量网络输出与真实值之间的差距，指导参数的调整以优化模型性能。

什么是反向传播算法？

反向传播算法是一种高效计算梯度的方法，通过链式法则逐层计算，从输出层向输入层反向传播误差。

🏷️