小红花·文摘

本研究提出了一种名为稀疏注意力混合（MoSA）的方法，旨在降低大型语言模型自注意力计算的复杂度。MoSA通过动态选择注意力头的标记，显著提高模型性能，在相同计算预算下，困惑度比稠密基线高出27%。