大型语言模型是过度参数化的文本编码器
发表于: 。本研究解决了大型语言模型在文本嵌入任务中显著的内存和推理时间需求问题。通过在有监督训练前修剪模型的部分层,提出了一种新颖的方法,能够在几乎不影响性能的情况下减少模型的参数量,证明了大型语言模型在文本嵌入应用中存在过度参数化现象。最重要的发现是,利用该方法,最多可以修剪30\%的层而性能损失微乎其微,甚至在某些情况下可达到80\%的修剪,适用于资源有限的环境。
本研究解决了大型语言模型在文本嵌入任务中显著的内存和推理时间需求问题。通过在有监督训练前修剪模型的部分层,提出了一种新颖的方法,能够在几乎不影响性能的情况下减少模型的参数量,证明了大型语言模型在文本嵌入应用中存在过度参数化现象。最重要的发现是,利用该方法,最多可以修剪30\%的层而性能损失微乎其微,甚至在某些情况下可达到80\%的修剪,适用于资源有限的环境。