本研究提出了一种新技术DeltaLLM,通过在Transformer层之间共享权重和添加低秩差异矩阵,减少约12%的参数,同时保持90%的性能,有效解决大型语言模型的内存占用问题。
完成下面两步后,将自动完成登录并继续当前操作。