本文提出了一种新的激活函数——稀疏最大函数,能够输出稀疏概率,并给出了其特性及雅可比矩阵的高效计算方法。同时,提出了一个新的平滑且凸函数作为逻辑损失的稀疏最大函数的对应,并发现它与 Huber 分类损失之间的联系。实验结果表明,在多标签分类和自然语言推断的基于注意力机制的神经网络中,采用稀疏最大函数可以获得类似的性能,但具有更精细、更紧凑的注意力焦点。
本文提出了oracle-type不等式,推导出全连接的ReLU DNN分类器在逻辑损失下的尖锐收敛速率,填补了DNN和逻辑损失的二元分类泛化分析的空白。结果解释了DNN分类器在高维分类问题中表现良好的原因。
完成下面两步后,将自动完成登录并继续当前操作。