原文中文,约900字,阅读约需3分钟。
📝
内容提要
本文涉及机器学习的三大分类:强化学习、监督学习和非监督学习,以及万能近似理论、ReLU和线性区间的关系、深度网络替代浅层网络的原因、对数函数作用特点、softmax函数、梯度下降、Nesterov动量、前向传导和反向传导、梯度爆炸和梯度消失等。
🎯
关键要点
-
机器学习的三大分类:强化学习、监督学习和非监督学习。
-
万能近似理论:单隐藏层的浅层网络可以逼近任意连续函数。
-
浅层网络的ReLU与线性区间的关系:N个ReLU可以产生N+1个线性区间。
-
深度网络替代浅层网络的原因:深度网络能代表更多线性区间,训练更快,使用更少数据获得相同准确性。
-
对数函数的特点:在相同输入值下仍能达到最大值。
-
softmax函数:将任意输入转换为0到1的概率分布。
-
梯度下降:可能会陷入局部最小值,但在高维环境中问题不大。
-
Nesterov动量:在梯度计算前进行动量步骤的变种。
-
反向传播算法的前向传导:计算和存储隐藏层的激活以计算权重的导数。
-
反向传播算法的反向传导:从网络末端向后计算导数,利用之前计算的冗余。
-
梯度爆炸和梯度消失:初始化值过大导致梯度爆炸,过小导致梯度消失。
🏷️