小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
长上下文长度的旋转位置嵌入

旋转位置嵌入(RoPE)是一种编码序列中标记位置的技术,分为简单RoPE和长上下文RoPE。RoPE通过旋转矩阵变换输入张量,优化语言模型在处理长文本时的性能,特别是通过调整频率来适应长上下文长度。

长上下文长度的旋转位置嵌入

MachineLearningMastery.com
MachineLearningMastery.com · 2025-12-20T15:51:36Z
斯坦福CS336:从零开始的语言建模 | 2025年春季 | 架构与超参数

斯坦福CS336课程讲解了语言模型架构与超参数,强调实践经验的重要性。课程回顾了变换器的基本结构,探讨了不同架构变体及超参数选择对模型性能的影响。现代模型普遍采用预归一化和RMS归一化,且大多数模型不再使用偏置项。同时,课程讨论了位置嵌入的演变,强调相对位置嵌入的有效性。

斯坦福CS336:从零开始的语言建模 | 2025年春季 | 架构与超参数

Josherich的博客
Josherich的博客 · 2025-04-20T00:00:01Z

本研究探讨了开源大型语言模型(LLMs)在有效上下文长度不足的问题。通过引入ShifTed Rotray position embeddING(STRING)优化位置嵌入,显著提升了模型性能。实验结果表明,STRING在不额外训练的情况下,改善了模型在长上下文基准测试中的表现,创造了新的最优结果。

Why Is the Effective Context Length of Large Language Models Insufficient?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-24T00:00:00Z

本文介绍了一种高效的变压器架构,通过增强位置嵌入,在减少层数的情况下提升性能。结合位置编码与可训练标记嵌入,并对其归一化,显著改善了训练和验证的损失及时间。

用于语言模型的高效变压器加强位置嵌入

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z

本文介绍了多种扩展大型语言模型(LLMs)上下文窗口的方法,如Position Interpolation、YaRN和PoSE。这些方法显著提高了模型在长上下文任务中的性能,降低了训练成本,并支持更大的上下文窗口(如128k和2048k tokens)。研究表明,位置嵌入在模型中至关重要,未来将继续探索其潜力。

从分布视角扩展大语言模型的上下文窗口

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-02T00:00:00Z
公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4

这篇文章介绍了一种通过公理训练来教授Transformer模型因果推理的方法。研究团队通过构建数据集、损失函数和位置嵌入来实现公理训练。他们发现,训练在简单链上的模型可以泛化到更大的链上,但无法泛化到更复杂的场景。然而,如果在混合数据集上训练模型,则可以很好地泛化到各种评估场景。此外,他们还发现位置嵌入对于实现因果泛化非常重要。该方法还可以应用于解决更困难的问题,如根据因果关系分辨相关性。该研究提供了一种新的范式来教授模型学习因果推理。

公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4

机器之心
机器之心 · 2024-07-16T07:08:48Z

本文提出了翻译不变的自注意力模型(TISA),通过考虑标记之间的相对位置,解决了现有语言模型的位置嵌入问题。实验结果显示,TISA在GLUE任务上的性能优于ALBERT模型。

位置知识是一切所需:面向操作员学习的位置感知变压器 (PiT)

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-15T00:00:00Z

基于生成 Transformer 模型的研究发现,模型在已见过的输入上能成功泛化,但在未见过的情况下失败。研究试图通过修改位置嵌入、微调和引导更广泛或更有指导性的数据等解决方案来弥合这一差距。然而,如果不解决基本机制,对于这些解决方案的鲁棒性几乎没有任何保证。研究发现模型在泛化方面仍然展现出明确的学习代数结构,这表明模型携带有用信息以改善泛化。

克服视觉语言模型微调的问题:针对 OOD 泛化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-29T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码