深度学习网络的几何结构和全局 L^2 最小化器的构建
原文中文,约500字,阅读约需2分钟。发表于: 。用几何方法解释了 Deep Learning(DL)网络的结构,包括 L 个隐藏层、坡度激活函数、L2 Schatten 类(或 Hilbert-Schmidt)成本函数以及相等维度的输入输出空间 R^Q。隐藏层在空间 R^Q 上定义,并且用于通过递归应用截断映射来筛选训练输入。此外,找到了成本函数的 2^Q-1 个不同退化局部最小值。
该文介绍了一个浅层神经网络结构,具有隐藏层、斜坡激活函数和L2 Schatten/Hilbert-Schmidt代价函数。证明了成本函数最小值的上界,并使用投影获得了一个近似优化器。在特殊情况下,证明了成本函数的精确退化局部最小值,并展示了该网络度量了输入空间中的Q维子空间。对成本函数全局最小值的特征进行了评论。