本文介绍了支持高达32,768个令牌的长上下文LLMs,通过持续预训练和上采样长文本数据集构建模型。模型在语言模型、合成上下文探索任务和研究基准上取得了改进。通过指令调整过程,70B变体在长上下文任务中超过了gpt-3.5-turbo-16k。文章还对Llama的位置编码和预训练过程进行了分析。
完成下面两步后,将自动完成登录并继续当前操作。