DoTA:针对大型语言模型的权重分解张量适应

📝

内容提要

本研究解决了低秩适应方法在高维结构捕捉上的不足,提出了一种全新的权重分解张量适应方法(DoTA),利用预训练权重的矩阵乘积算子(MPO)分解实现有效初始化。通过实验,DoTA在较少参数情况下优于随机初始化方法,同时推出的QDoTA进一步降低了内存消耗,并在常识推理任务中表现出与DoTA相当的性能。

🏷️

标签

➡️

继续阅读