扩容 Granite 代码模型至 128K 上下文
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本文介绍了支持高达32,768个令牌的长上下文LLMs,通过预训练和上采样长文本数据集构建。模型在语言模型、合成上下文探索任务和研究基准上取得了改进,并在长上下文任务上相对于Llama 2有显著提升。通过指令调整过程,70B变体在长上下文任务中超过了gpt-3.5-turbo-16k的整体性能。对模型的各个组成部分进行了深入分析。
🎯
关键要点
- 介绍了一系列支持高达32,768个令牌的长上下文LLMs。
- 模型系列基于Llama 2的持续预训练,使用更长的训练序列和上采样长文本数据集。
- 在语言模型、合成上下文探索任务和研究基准上进行了广泛评估,取得了一致的改进。
- 在长上下文任务上,相对于Llama 2有显著提升。
- 70B变体通过高效的指令调整过程,超越了gpt-3.5-turbo-16k的整体性能。
- 对模型各组成部分进行了深入分析,研究了Llama的位置信息编码及其局限性。
- 探讨了预训练过程中设计选择的影响,消融实验表明长文本数据集并非强大性能的关键。
- 验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。
➡️