结构之法算法之道 ·

大模型上下文扩展之YaRN解析：从直接外推ALiBi、位置插值PI、NTK-aware插值、YaRN

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

本文介绍了一种新的RoPE扩展方法YaRN，可以高效扩展大型语言模型的上下文窗口。YaRN通过旋转位置嵌入实现，经过微调后可以达到最先进的性能。文章还介绍了YaRN的基本原理和位置插值的方法。

🎯

关键要点

YaRN是一种新的RoPE扩展方法，可以高效扩展大型语言模型的上下文窗口。
YaRN通过旋转位置嵌入实现，经过微调后可以达到最先进的性能。
上下文窗口的最大长度是预训练大型语言模型的主要限制之一。
位置编码是扩展上下文窗口的核心焦点，最初的Transformer使用绝对正弦位置编码。
相对位置编码方案提升了Transformer的性能，但仍存在无法泛化到训练期间未见的上下文窗口的限制。
位置插值方法通过对RoPE进行轻微修改，能够扩展上下文长度。
NTK感知插值和动态NTK插值是对现有插值方法的改进，已在开源模型中应用。
YaRN在不到0.1%的原始预训练数据上微调后，达到了上下文窗口扩展的最先进性能。
动态缩放技术结合YaRN可以实现超过2倍的上下文窗口扩展，无需微调。
位置插值方法通过在相对较少的数据上微调，成功扩展了上下文长度。

🏷️

继续阅读

五篇清晰解释大型语言模型的有趣论文
本文介绍了五篇关于大型语言模型（LLMs）的重要论文，涵盖其核心概念和技术。首先是“Attention Is All You Need”，提出了Trans...
原华为盘古大模型负责人王云鹤离职创业；苹果硬件负责人启动重大重组；OpenAI联合创始人加入Anthropic
近期多家科技公司高管频繁变动。华为盘古大模型负责人王云鹤离职创业，成立新公司“基元律动”；阿里副总裁张凯夫也离职创业，专注市场行为预测；苹果硬件部门进行重...
LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局
视启未来团队专注于开发隐空间世界模型，推动AI从“看见”向“预见”转变。创始人张磊指出，理解因果关系和物理规律至关重要。团队通过提升物体理解能力，推出全球...
一千台599美元Mac mini替代H100跑大模型：便宜十倍
一千台599美元的Mac mini可以替代昂贵的H100服务器，具有低成本和低功耗的优势。Mac mini的统一内存架构提升了AI模型的运行效率，适合本地...
受人之托，然后呢
文章探讨了工作中的责任感与个人价值的关系。作者反思工作中的焦虑与消耗，认为并非所有尽责都有意义。工作应关注可控部分，避免责任无限扩大。通过主动创造与自我管...
掌握时间序列分析的七个步骤：使用Python
时间序列数据分析在各行业中需求旺盛，需掌握时间依赖性、平稳性和季节性等特性。文章介绍了七个步骤：理解时间序列特性、使用Python处理数据、数据清洗与准备...

大模型上下文扩展之YaRN解析：从直接外推ALiBi、位置插值PI、NTK-aware插值、YaRN

内容提要

关键要点

标签

继续阅读