LongEmbed:扩展嵌入模型以用于长上下文检索
原文中文,约500字,阅读约需2分钟。发表于: 。现代自然语言处理(NLP)应用中的嵌入模型在信息检索和大规模生成方面起着重要作用,本文探索了现有嵌入模型的上下文窗口扩展,将限制提升到 32k,而不需要额外的训练。我们通过新构建的 LongEmbed 基准测试,对目前的嵌入模型在长文本检索上的性能进行了评估,并发现有巨大的改进空间。我们实验表明训练前的扩展策略(如位置插值)可以有效地将现有嵌入模型的上下文窗口扩展多倍,无论其原始上下文是...
本文介绍了支持高达32,768个令牌的长上下文LLMs,通过持续预训练和调整过程,模型在长上下文任务中超过了gpt-3.5-turbo-16k的整体性能。文章还对Llama的位置编码和预训练过程进行了深入分析。