驯服 Sigmoid 瓶颈:可证明的稀疏多标签分类算法

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种新的激活函数——稀疏最大函数,能够输出稀疏概率,并给出了其特性及雅可比矩阵的高效计算方法。同时,提出了一个新的平滑且凸函数作为逻辑损失的稀疏最大函数的对应,并发现它与 Huber 分类损失之间的联系。实验结果表明,在多标签分类和自然语言推断的基于注意力机制的神经网络中,采用稀疏最大函数可以获得类似的性能,但具有更精细、更紧凑的注意力焦点。

🎯

关键要点

  • 提出了一种新的激活函数——稀疏最大函数,能够输出稀疏概率。
  • 给出了稀疏最大函数的特性及雅可比矩阵的高效计算方法。
  • 提出了一个新的平滑且凸函数作为逻辑损失的稀疏最大函数的对应。
  • 发现稀疏最大函数与 Huber 分类损失之间的联系。
  • 实验结果表明,稀疏最大函数在多标签分类和自然语言推断中表现出类似于传统 softmax 的性能。
  • 采用稀疏最大函数可以获得更精细、更紧凑的注意力焦点。
➡️

继续阅读