小红花·文摘

本文提出了一种新的激活函数——稀疏最大函数，能够输出稀疏概率，并给出了其特性及雅可比矩阵的高效计算方法。同时，提出了一个新的平滑且凸函数作为逻辑损失的稀疏最大函数的对应，并发现它与 Huber 分类损失之间的联系。实验结果表明，在多标签分类和自然语言推断的基于注意力机制的神经网络中，采用稀疏最大函数可以获得类似的性能，但具有更精细、更紧凑的注意力焦点。

驯服 Sigmoid 瓶颈：可证明的稀疏多标签分类算法

BriefGPT - AI 论文速递 ·

本文提出了oracle-type不等式，推导出全连接的ReLU DNN分类器在逻辑损失下的尖锐收敛速率，填补了DNN和逻辑损失的二元分类泛化分析的空白。结果解释了DNN分类器在高维分类问题中表现良好的原因。

基于铰链损失训练的深度学习二元分类器的基本限制

BriefGPT - AI 论文速递 ·