Apple Machine Learning Research ·

评估代码生成大型语言模型中的长距离依赖处理能力

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

随着语言模型支持更大的上下文，评估其有效利用能力变得重要。我们分析了多个代码生成模型在处理长距离依赖时的表现，发现许多模型在引用后定义的函数时性能显著下降。使用滑动窗口注意力机制的模型在处理超出窗口大小的引用时也存在困难。通过简单的提示修改，我们提高了多步骤检索性能，表明长上下文性能需要更多关注。

🎯

❓

随着语言模型支持更大的上下文，评估其有效利用能力变得重要。

许多模型在引用后定义的函数时性能显著下降，下降幅度可达2倍。

这些模型在处理超出窗口大小的引用时存在困难。

通过简单的提示修改，使用调用图信息可以提高多步骤检索性能，提升幅度可达3倍。

长上下文性能需要更多关注，而不仅仅是文档中单一事实的检索。

这些任务逐步增加难度，允许对模型能力进行更细致的评估。

🏷️

史上最强游戏掌机来了！性能堪比 PS5，但……
今年掌机市场因元器件成本上涨而涨价，但英特尔等公司推出的新芯片提升了掌机性能和能效。微星和宏碁的新款掌机搭载英特尔 Arc G3 处理器，表现出色，续航能...
与TorchRec KeyedJaggedTensor的同步
推荐系统中的稀疏特征用于建模用户偏好和物品特性，但存在输入数据长度不一和内存浪费的问题。TorchRec的KeyedJaggedTensor通过合并稀疏特...
知识图谱+本地存储：开源Mnemo给AI配的长期记忆中枢
Mnemo是为大语言模型设计的本地优先长期记忆层，旨在解决AI每次会话忘记上下文的问题。它通过构建知识图谱存储历史对话和信息，帮助AI在后续提问中自动召回...
模型评估：证明您的路由策略确实有效
本文介绍了DigitalOcean的模型评估功能，帮助团队在真实工作负载下评估不同的推理策略。用户可以通过比较多种模型和路由策略来优化成本、延迟和输出质量...
This is your laptop… on AI
We're now deep into developer conference season, and one of the themes so...
What happens when your phone is confiscated at the airport
Even if you've done nothing wrong, it's never a good idea to hand you...