本文介绍了LongLora和LongQLora两种长文本处理技术,分别通过稀疏局部注意力和低秩矩阵自注意力机制来扩展模型上下文和减少可训练参数数量。这些技术在长文本处理方面表现出良好效果。
该文章介绍了支持高达32,768个令牌的长上下文LLMs,通过持续预训练构建模型系列,并在多个任务和基准测试中进行了评估。70B变体已经超过了gpt-3.5-turbo-16k在一套长上下文任务中的整体性能。同时,文章还对Llama的位置编码进行了深入研究,并讨论了预训练过程中各种设计选择的影响。
完成下面两步后,将自动完成登录并继续当前操作。