权重范围对齐:一种令人沮丧的简单模型合并方法
💡
原文中文,约500字,阅读约需1分钟。
📝
内容提要
最近,Ainsworth等人发现使用权重匹配(WM)不能明显减小两个模型之间的距离,但可以使得与大奇异值相关的奇异向量在模型之间更加接近,从而满足线性模态连通性(LMC)。他们还发现WM在合并三个或更多模型时表现更好。
🎯
关键要点
- Ainsworth等人发现使用权重匹配(WM)不能明显减小两个模型之间的距离。
- WM可以使得与大奇异值相关的奇异向量在模型之间更加接近,从而满足线性模态连通性(LMC)。
- WM在合并三个或更多模型时表现更好。
- WM找到的排列并没有明显减小两个模型之间的L2距离,LMC的发生并不仅仅是由于WM本身的距离缩小。
- 排列可以改变每层权重矩阵奇异向量的方向,但不会改变奇异值。
- WM的对齐使得后合并模型在功能上与前合并模型保持相似,容易满足LMC。
- 分析了WM和依赖于数据集的直通估计器(STE)之间的差异。
➡️