驯服 Sigmoid 瓶颈:可证明的稀疏多标签分类算法
原文中文,约300字,阅读约需1分钟。发表于: 。在多标签分类任务中,sigmoid 输出层广泛应用;本文展示了类似 sigmoid 的瓶颈会导致指数级别的无法预测的标签组合;我们提出了一种离散傅立叶变换输出层,可以防止这种情况的发生,并且相较于 sigmoid 输出层,训练速度更快、参数利用更高效,能够在使用更少的可调参数的同时与 sigmoid 输出层达到相似的 F1 度量指标。
本文提出了一种新的激活函数——稀疏最大函数,能够输出稀疏概率,并给出了其特性及雅可比矩阵的高效计算方法。同时,提出了一个新的平滑且凸函数作为逻辑损失的稀疏最大函数的对应,并发现它与 Huber 分类损失之间的联系。实验结果表明,在多标签分类和自然语言推断的基于注意力机制的神经网络中,采用稀疏最大函数可以获得类似的性能,但具有更精细、更紧凑的注意力焦点。