小红花·文摘

本研究探讨了前向梯度下降（FGD）在预测误差上相较于随机梯度下降（SGD）的表现。通过对每个训练样本进行多次FGD步骤，改善了亚最优性因子，并且当步骤数足够时，亚最优性速率消失。此外，FGD能够适应输入分布中的低维结构。