软银系列开放语言模型

原文约500字,阅读约需2分钟。发表于:

Falcon 系列是一个先验量最大且质量最好的语言模型之一,通过预培训和多种工具的使用,Falcon-180B 在性能上超过了其他模型,使用更低的成本接近 PaLM-2-Large 模型的表现。

本文介绍了支持高达32,768个令牌的长上下文LLMs,通过持续预训练和上采样长文本数据集构建模型。模型在语言模型、合成上下文探索任务和研究基准上取得了一致的改进。70B变体在长上下文任务中超过了gpt-3.5-turbo-16k的整体性能。研究了位置编码和预训练过程中的设计选择的影响。验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。

相关推荐 去reddit讨论