扩容 Granite 代码模型至 128K 上下文
原文中文,约500字,阅读约需2分钟。发表于: 。该论文介绍了长上下文 Granite 代码模型,它支持有效的长达 128K 令牌的上下文窗口。我们的解决方案通过逐渐增加 RoPE 基本频率,采用存储库级文件打包和长度上采样的长上下文数据的轻量级持续预训练,将 Granite 3B/8B 代码模型的上下文长度从 2K/4K 扩展到...
本文介绍了支持高达32,768个令牌的长上下文LLMs,通过预训练和上采样长文本数据集构建。模型在语言模型、合成上下文探索任务和研究基准上取得了改进,并在长上下文任务上相对于Llama 2有显著提升。通过指令调整过程,70B变体在长上下文任务中超过了gpt-3.5-turbo-16k的整体性能。对模型的各个组成部分进行了深入分析。