通过学习前缀子空间提高大型语言模型的泛化能力
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了一种基于神经网络子空间的方法,通过在参数空间中联合优化一个模型单纯形来增加大规模语言模型的泛化能力。使用PEFT方法在适应few-shot学习设置的GLUE基准的变种上取得了优于sota方法的平均性能提升。
🎯
关键要点
- 本研究提出了一种基于神经网络子空间的方法。
- 该方法通过在参数空间中联合优化一个模型单纯形来增加大规模语言模型的泛化能力。
- 使用PEFT方法学习连续前缀的整个单纯形。
- 实验证明该方法与原始方法相兼容。
- 在适应few-shot学习设置的GLUE基准的变种上取得了优于sota方法的平均性能提升。
➡️