Jina AI ·

长上下文嵌入模型在超过4000个标记后失去效果

💡 原文英文，约2900词，阅读约需11分钟。

📝

内容提要

2025年2月，AI研究团队发布了NoLiMA论文，提出了评估大语言模型处理长文本的新基准。研究揭示了现有模型在长上下文中依赖表面匹配的局限性，并强调了语义推理能力的快速下降。此外，研究还探讨了嵌入模型在不同上下文长度下的表现，发现即使使用查询扩展，性能仍显著下降。

🎯

关键要点

2025年2月，AI研究团队发布了NoLiMA论文，提出了评估大语言模型处理长文本的新基准。
NoLiMA论文改变了传统的针在干草堆中的基准，去除了问题与隐藏信息之间的字面匹配。
研究揭示了当前大语言模型在长上下文中依赖表面匹配的局限性，语义推理能力快速下降。
研究探讨了嵌入模型在不同上下文长度下的表现，发现即使使用查询扩展，性能仍显著下降。
传统的针在干草堆测试使用与问题相同措辞的针，NoLiMA则测试语义理解而非关键词匹配。
研究生成了多个类别的针-问题组，以测试模型的语义理解能力。
使用公共领域书籍构建了不同长度的干草堆，并在每个干草堆中嵌入一个针。
评估框架使用多个指标来评估嵌入模型在不同上下文长度下的表现。
结果显示，随着上下文长度增加，模型的相似度得分和正确性显著下降。
模型在短上下文中能够有效区分相关和无关内容，但随着上下文长度增加，区分能力迅速下降。
查询扩展技术在一定程度上改善了模型的检索性能，但在长上下文中仍然面临挑战。
研究表明，字面匹配在语义匹配中并不占主导地位，模型的表现更受上下文长度和针的位置影响。
结论是，嵌入模型的表现与NoLiMA论文的发现一致：上下文大小对正确匹配和检索具有决定性影响。

❓

延伸问答

NoLiMA论文的主要贡献是什么？

NoLiMA论文提出了评估大语言模型处理长文本的新基准，强调了语义推理能力在长上下文中的快速下降。

长上下文对嵌入模型的表现有什么影响？

随着上下文长度增加，嵌入模型的相似度得分和正确性显著下降，尤其在超过1000个标记后表现急剧恶化。

查询扩展技术如何改善模型性能？

查询扩展技术在一定程度上改善了模型的检索性能，但在长上下文中仍面临挑战，效果有限。

传统的针在干草堆测试与NoLiMA的区别是什么？

传统测试依赖字面匹配，而NoLiMA测试语义理解，去除了问题与隐藏信息之间的直接匹配。

研究发现模型在短上下文中的表现如何？

在短上下文中，模型能够有效区分相关和无关内容，表现较好，但随着上下文长度增加，区分能力迅速下降。

上下文长度对模型的语义匹配能力有何影响？

上下文长度对模型的语义匹配能力有决定性影响，随着长度增加，模型的语义推理能力显著下降。

🏷️

继续阅读

全新生图模型 Anima V1 发布：专注动漫风格的图像生成；MemLens 多模态长程记忆评估数据集：涵盖跨会话图文推理与知识更新机制
Anima V1 是 CircleStone Labs 于 2026 年推出的动漫风格图像生成模型，支持通过文本描述快速生成角色立绘和插画，用户可在 Gr...
专注动漫风格，全新生图模型Anima V1已开源；哈佛大学发布机器学习系统教学平台MLSysBook，含33个可交互实验
Anima V1 是 CircleStone Labs 于 2026 年发布的动漫风格图像生成模型，用户可以通过文本描述生成精美图像，适用于角色立绘和插画...
派早报：小米召开新品发布会、Photoshop 移除工具支持端侧 AI 模型等
小米于5月21日发布了小米17 Max手机和YU7 GT SUV。小米17 Max售价4299元，主打续航与影像，搭载8000mAh电池和徕卡两亿像素摄像...
开办境外银行账户最重要的问题是什么？
我这里说的是亲自经历的开办境外银行账户的事情。近20年前，我在比利时的几年里，因为要接收当地学校每个月发放的 […]
美团外卖前负责人入局餐饮具身模型，元节智能获千万级种子轮融资
不造人形机器人，死磕餐饮后厨
1.75万亿美元「巨壳」！SpaceX招股书，藏着马斯克什么秘密？
挑逗了世界这么多年，伊隆·马斯克的 SpaceX，终于提交了招股书。5 月 20 日，SpaceX 向美国证券交易委员会（SEC）提交了 S-1 招股书。...