驯服 Sigmoid 瓶颈:可证明的稀疏多标签分类算法
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种新的激活函数——稀疏最大函数,能够输出稀疏概率,并给出了其特性及雅可比矩阵的高效计算方法。同时,提出了一个新的平滑且凸函数作为逻辑损失的稀疏最大函数的对应,并发现它与 Huber 分类损失之间的联系。实验结果表明,在多标签分类和自然语言推断的基于注意力机制的神经网络中,采用稀疏最大函数可以获得类似的性能,但具有更精细、更紧凑的注意力焦点。
🎯
关键要点
- 提出了一种新的激活函数——稀疏最大函数,能够输出稀疏概率。
- 给出了稀疏最大函数的特性及雅可比矩阵的高效计算方法。
- 提出了一个新的平滑且凸函数作为逻辑损失的稀疏最大函数的对应。
- 发现稀疏最大函数与 Huber 分类损失之间的联系。
- 实验结果表明,稀疏最大函数在多标签分类和自然语言推断中表现出类似于传统 softmax 的性能。
- 采用稀疏最大函数可以获得更精细、更紧凑的注意力焦点。
➡️