LESA: Learnable Hierarchical Scaling for LLMs
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种新的可学习层级扩展方法LESA,旨在解决大规模语言模型训练中的高计算资源需求。通过层参数结合和奇异值分解,LESA优化了模型初始化,提升了训练速度,实验结果表明其性能优于现有基线,并降低了计算成本。
🎯
关键要点
- 本研究提出了一种新的可学习层级扩展方法LESA。
- LESA旨在解决大规模语言模型训练中的高计算资源需求。
- 通过层参数结合和奇异值分解,LESA优化了模型初始化。
- LESA提升了训练速度,实验结果表明其性能优于现有基线。
- LESA显著降低了计算成本。
➡️