我们介绍了一系列支持高达32,768个令牌的长上下文LLMs。通过持续预训练,这些模型在长文本数据集上表现优异,尤其在长上下文任务中显著超越Llama 2。70B变体在长任务中超过gpt-3.5-turbo-16k。我们分析了位置编码的局限性及预训练设计选择的影响,验证了长上下文持续预训练的有效性。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: