DeltaLLM: Low-Rank Incremental Compression of Large Language Models through Weight Sharing
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种新技术DeltaLLM,通过在Transformer层之间共享权重和添加低秩差异矩阵,减少约12%的参数,同时保持90%的性能,有效解决大型语言模型的内存占用问题。
🎯
关键要点
- 本研究提出了一种新技术DeltaLLM,旨在解决大型语言模型的内存占用问题。
- DeltaLLM通过在Transformer层之间共享权重和添加低秩差异矩阵,减少了约12%的参数。
- 该技术在保持90%性能的同时,提高了存储效率。
➡️