HELMET：如何有效而全面地评估长文本语言模型

本研究针对现有长文本语言模型（LCLMs）评估基准广泛存在的问题，提出了HELMET基准，涵盖七个多样的应用中心类别。通过增加可控长度和基于模型的评价方法，我们发现HELMET提供了更可靠的一致性排名，同时显示出合成任务并不良好预测下游性能，尤其在任务复杂度提高时，开源模型相较于封闭模型表现有显著差距。

我们开发了支持32,768个令牌的长上下文语言模型，通过持续预训练和长文本数据集构建。模型在语言任务和研究基准上表现优异，尤其在长上下文任务上超越了Llama 2。70B变体在长上下文任务中超过了gpt-3.5-turbo-16k。研究表明，长上下文持续预训练比从头开始的长序列预训练更高效。我们还分析了Llama的位置编码及其在长依赖性建模中的局限性。

Llama gpt-3.5-turbo-16k 位置编码语言模型长上下文预训练