小红花·文摘

本文提出了一种稀疏最大函数，类似于传统的softmax，但输出稀疏概率。研究表明，在多标签分类和自然语言推断中，稀疏最大函数能够提供更精细的注意力焦点，且性能与传统softmax相似。此外，提出了新的凸损失函数和自适应稀疏转换器，以改善模型的可解释性和性能。

MultiMax：稀疏和多模态的注意力学习

BriefGPT - AI 论文速递 ·

本文提出了一种新的激活函数——稀疏最大函数，能够输出稀疏概率，并给出了其特性及雅可比矩阵的高效计算方法。同时，提出了一个新的平滑且凸函数作为逻辑损失的稀疏最大函数的对应，并发现它与 Huber 分类损失之间的联系。实验结果表明，在多标签分类和自然语言推断的基于注意力机制的神经网络中，采用稀疏最大函数可以获得类似的性能，但具有更精细、更紧凑的注意力焦点。

驯服 Sigmoid 瓶颈：可证明的稀疏多标签分类算法

BriefGPT - AI 论文速递 ·