小红花·文摘

本研究提出了一种新技术DeltaLLM，通过在Transformer层之间共享权重和添加低秩差异矩阵，减少约12%的参数，同时保持90%的性能，有效解决大型语言模型的内存占用问题。