小红花·文摘

论文提出了一种名为MaskLLM的可学习半结构化剪枝方法，通过大规模数据集学习N:M掩码，以降低大型语言模型的计算开销。该方法支持跨任务的稀疏模式迁移学习，显著提升模型性能和训练效率。实验结果表明，MaskLLM在多个大型语言模型上表现优异。

晓飞的算法工程笔记 ·

本文研究了Transformer网络中的自注意力矩阵，重点分析了稀疏模式的逼近。通过固定自注意力参数，采用不同的输入即可逼近各种稀疏矩阵，并提出了一种基于随机映射技术的构造性证明和算法。在保持矩阵元素比率不变的精度下，仅需要$log L$（L为序列长度）的$d$即可逼近任何稀疏矩阵。

BriefGPT - AI 论文速递 ·