💡
原文中文,约900字,阅读约需3分钟。
📝
内容提要
本文涉及机器学习的三大分类:强化学习、监督学习和非监督学习,以及万能近似理论、ReLU和线性区间的关系、深度网络替代浅层网络的原因、对数函数作用特点、softmax函数、梯度下降、Nesterov动量、前向传导和反向传导、梯度爆炸和梯度消失等。
🎯
关键要点
- 机器学习的三大分类:强化学习、监督学习和非监督学习。
- 万能近似理论:单隐藏层的浅层网络可以逼近任意连续函数。
- 浅层网络的ReLU与线性区间的关系:N个ReLU可以产生N+1个线性区间。
- 深度网络替代浅层网络的原因:深度网络能代表更多线性区间,训练更快,使用更少数据获得相同准确性。
- 对数函数的特点:在相同输入值下仍能达到最大值。
- softmax函数:将任意输入转换为0到1的概率分布。
- 梯度下降:可能会陷入局部最小值,但在高维环境中问题不大。
- Nesterov动量:在梯度计算前进行动量步骤的变种。
- 反向传播算法的前向传导:计算和存储隐藏层的激活以计算权重的导数。
- 反向传播算法的反向传导:从网络末端向后计算导数,利用之前计算的冗余。
- 梯度爆炸和梯度消失:初始化值过大导致梯度爆炸,过小导致梯度消失。
➡️