参透AI(持续更新)

参透AI(持续更新)

💡 原文中文,约900字,阅读约需3分钟。
📝

内容提要

本文涉及机器学习的三大分类:强化学习、监督学习和非监督学习,以及万能近似理论、ReLU和线性区间的关系、深度网络替代浅层网络的原因、对数函数作用特点、softmax函数、梯度下降、Nesterov动量、前向传导和反向传导、梯度爆炸和梯度消失等。

🎯

关键要点

  • 机器学习的三大分类:强化学习、监督学习和非监督学习。
  • 万能近似理论:单隐藏层的浅层网络可以逼近任意连续函数。
  • 浅层网络的ReLU与线性区间的关系:N个ReLU可以产生N+1个线性区间。
  • 深度网络替代浅层网络的原因:深度网络能代表更多线性区间,训练更快,使用更少数据获得相同准确性。
  • 对数函数的特点:在相同输入值下仍能达到最大值。
  • softmax函数:将任意输入转换为0到1的概率分布。
  • 梯度下降:可能会陷入局部最小值,但在高维环境中问题不大。
  • Nesterov动量:在梯度计算前进行动量步骤的变种。
  • 反向传播算法的前向传导:计算和存储隐藏层的激活以计算权重的导数。
  • 反向传播算法的反向传导:从网络末端向后计算导数,利用之前计算的冗余。
  • 梯度爆炸和梯度消失:初始化值过大导致梯度爆炸,过小导致梯度消失。
➡️

继续阅读