Thinking Machines公司发布了关于“模块化流形”的论文,旨在提升神经网络训练的稳定性和效率。研究通过对权重矩阵施加流形约束,解决训练不稳定问题,优化算法表现优于传统方法,预计将提高大型模型的训练效率。
本研究提出了一种对称的BoRA方法,解决了低秩适应中权重矩阵维度不对称的问题,从而优化了模型的适应性。实验结果表明,BoRA在多个基准测试中优于现有的微调方法。
本文研究了一种新的无训练压缩方法,称为激活感知奇异值分解(ASVD),旨在提高大型语言模型(LLMs)的压缩效率。ASVD通过调整权重矩阵管理激活异常值,能够在不损失推理能力的情况下压缩网络10%-20%。该方法与其他压缩技术兼容,展示了其灵活性。
该研究探讨了深度神经网络训练及其与网络参数之间的复杂动力学关系。研究发现训练网络往往呈现漂移模式,沿着单一方向进行训练,并提出了指数级缓慢衰减的潜在值。通过分解权重矩阵和识别 Hessian 特征向量,揭示了网络内的参数方向。基于这些发现,提出了一种有效的策略来缓解神经网络在学习新任务时遗忘之前任务知识的挑战。
完成下面两步后,将自动完成登录并继续当前操作。