投影语言模型:将大型模型预分割为小型模型
原文英文,约200词,阅读约需1分钟。发表于: 。This paper has been accepted at the Foundation Models in the Wild workshop at ICML 2024. Large language models are versatile tools but are not suitable for small inference budgets. Small models...
本文探讨了在预训练期间处理未知专业数据的方法,提出了投影网络(PN)架构,通过线性投影和微调实现高容量网络的小型化。与其他方法相比,我们的解决方案在实证评估中表现出更好的专业准确性。