大模型上下文长度的超强扩展:从LongLoRA到LongQLoRA(含源码剖析)

💡 原文中文,约6000字,阅读约需15分钟。
📝

内容提要

本文介绍了LongLora和LongQLora两种长文本处理技术,分别通过稀疏局部注意力和低秩矩阵自注意力机制来扩展模型上下文和减少可训练参数数量。这些技术在长文本处理方面表现出良好效果。

🎯

关键要点

  • 本文介绍了LongLora和LongQLora两种长文本处理技术。
  • LongLora通过稀疏局部注意力实现模型微调,显著节省计算资源。
  • LongLora在embedding矩阵和归一化层上应用LoRA,效果更佳。
  • LoRA通过低秩分解更新预训练权重矩阵,减少可训练参数数量。
  • shifted sparse attention(S2-Attn)替代标准自注意力机制,降低计算复杂度。
  • S2-Attn将上下文长度分组计算注意力,确保信息流动。
  • LongAlpaca是使用LongLora技术的长指令遵循数据集。
  • LongQLora部分内容待更新。
➡️

继续阅读