小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了长上下文模型的工程挑战与解决方案,包括位置编码、注意力计算复杂度、训练策略和推理优化。随着上下文长度增加,模型面临计算复杂度和显存限制。采用RoPE、YaRN等技术扩展位置编码,并结合线性注意力和稀疏注意力优化计算效率。在训练方面,采用短预训练与长继续预训练相结合的策略,推理时利用前缀缓存和KV压缩等技术提高效率。

【大模型基础设施工程】16:长上下文工程

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
学习大型语言模型中变压器架构的演变

变压器在机器学习中至关重要,推动了聊天机器人、搜索引擎和机器翻译的发展。freeCodeCamp.org推出了一门新课程,帮助初学者理解变压器架构的改进,内容涵盖位置编码、注意机制、归一化和激活函数等关键概念,适合学生和工程师,观看时间为3小时。

学习大型语言模型中变压器架构的演变

freeCodeCamp.org
freeCodeCamp.org · 2025-06-26T13:09:08Z
位置编码中的插值及YaRN在更大上下文窗口中的应用

本文探讨了位置编码在处理不同长度序列时的插值和外推方法。正弦编码和RoPE能够轻松进行外推,而学习编码仅支持插值。YaRN方法通过不均匀缩放RoPE频率,提升了模型在长序列上的表现,使其能够在不重新训练的情况下处理更长的输入序列。

位置编码中的插值及YaRN在更大上下文窗口中的应用

MachineLearningMastery.com
MachineLearningMastery.com · 2025-06-17T05:00:10Z
变换器模型中的位置编码

本文介绍了变换器模型中的位置编码,强调其在自然语言处理中的重要性。位置编码帮助模型理解词语顺序,主要有四种类型:正弦位置编码、学习位置编码、旋转位置编码和相对位置编码。每种编码方式各有优缺点,正弦编码适用于长序列,学习编码适应数据特征,旋转编码提高性能,相对编码关注词间距离。

变换器模型中的位置编码

MachineLearningMastery.com
MachineLearningMastery.com · 2025-06-15T05:06:17Z

本研究提出了一种二维语义感知位置编码($ ext{SaPE}^2$),有效解决了现有位置编码无法捕捉图像补丁间语义关系的问题,从而显著提升了模型的泛化能力和视觉任务性能。

Two-Dimensional Semantic-Aware Positional Encoding for Vision Transformers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-14T00:00:00Z
解读人工智能术语:开发者理解基础知识指南

本文介绍了人工智能中的基本概念,包括分词、向量嵌入、位置编码和自注意力机制。分词将文本拆分为可处理单元,向量嵌入为单元赋予数学意义,位置编码帮助模型理解词序,自注意力机制使模型根据上下文理解词义。这些概念是现代大型语言模型理解和处理语言的基础。

解读人工智能术语:开发者理解基础知识指南

DEV Community
DEV Community · 2025-04-09T06:29:48Z

本研究探讨了音乐生成中高效位置编码(PE)的应用挑战,并比较了不同的PE方法。提出的新方法RoPEPool通过提取时间序列的因果关系并结合结构先验,在旋律和声化任务中表现出优越性。

所有StrIPEs:结构信息驱动的位置编码在高效音乐生成中的研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-07T00:00:00Z
Qwen2.5-Omni:迈向通用多模态AI的里程碑——解读首个支持实时多模态输入与输出的统一模型

Qwen2.5-Omni实现了多模态AI的端到端感知与生成,支持实时交互。其核心技术包括时间对齐的多模态位置编码、Thinker-Talker架构和流式处理,适用于语音对话和视频分析等场景,标志着向通用人工智能的进步。

Qwen2.5-Omni:迈向通用多模态AI的里程碑——解读首个支持实时多模态输入与输出的统一模型

我爱自然语言处理
我爱自然语言处理 · 2025-03-27T02:34:23Z

本研究提出了一种新型位置编码方法STRING,克服了大型语言模型中旋转位置编码的局限性。STRING在保持低计算开销的同时,实现了精确的平移不变性,并在视觉变换器中应用,显著提升了开放词汇物体检测和机器人控制的效果。

Learning RoPEs: Enhancing 2D and 3D Positional Encoding with STRING

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-04T00:00:00Z
阶跃公开了自家新型注意力机制:KV缓存消耗直降93.7%,性能不减反增

AIxiv报道了一种新型注意力机制——多矩阵分解注意力(MFA),该机制显著降低了语言模型的推理成本,并提升了性能。MFA在内存使用上节省高达93.7%,兼容多种位置编码,解决了大语言模型的显存瓶颈,推动了其应用。

阶跃公开了自家新型注意力机制:KV缓存消耗直降93.7%,性能不减反增

机器之心
机器之心 · 2025-01-17T05:22:11Z

本文研究了奇偶性语言的识别问题,提出了一种新型三层变压器,其参数矩阵和位置编码与输入长度无关,显著改进了Chiang和Cholak的构造,提高了处理效率和简洁性。

完全均匀变压器用于奇偶性识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-05T00:00:00Z

本研究提出了一种新方法,通过结合二次长度差异的位置编码(LDPE)在输入嵌入中,解决大语言模型生成结构化输出时的响应长度控制问题。实验结果表明,该方法能够在不影响响应质量的前提下,实现精确的长度控制。

Precise Length Control in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-16T00:00:00Z
HuggingFace工程师亲授:如何在Transformer中实现最好的位置编码

有效的复杂系统源于简单系统。Transformer模型通过位置编码增强自注意力机制。HuggingFace工程师提出的旋转位置编码(RoPE)改进了位置编码方法,提升了模型对序列关系的理解。RoPE利用旋转矩阵处理相对位置,适用于多维数据,未来可能会有更多创新。

HuggingFace工程师亲授:如何在Transformer中实现最好的位置编码

机器之心
机器之心 · 2024-11-27T05:14:40Z

本研究探讨了BFloat16格式与Rotary Positional Embedding(RoPE)结合时在长上下文训练中的数值问题。通过开发AnchorAttention方法,解决了位置编码偏差,提升了长上下文处理能力,训练时间缩短超过50%,同时保持了大型语言模型的任务能力。

When Precision Meets Position: BFloat16 Breaks RoPE in Long-Context Training

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-20T00:00:00Z

本研究探讨了图神经网络(GNNs)和图变压器(GTs)中位置编码(PEs)的孤立性问题,建立了统一框架来评估PEs的应用,并引入了稀疏化GRIT注意机制,发现新GNN架构与PEs的结合能够超越现有方法。

图神经网络和图变压器的位置信息编码基准测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-19T00:00:00Z

本研究分析隐式神经表示(INR)的技术缺口,建立分类体系,比较不同方法的优缺点,并为未来研究提供方向,特别关注激活函数、位置编码和高维数据的可扩展性。

隐式神经表示的发展现状:技术与性能调查

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-06T00:00:00Z

本研究质疑传统位置编码在大语言模型中的长期衰减假设,提出高频旋转位置编码(HoPE),以优化位置和语义表示,增强模型的上下文意识和外推能力。

HoPE: A Novel High-Frequency Positional Encoding with No Long-Term Decay to Enhance Context Awareness and Extrapolation Capability

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

我们介绍了一系列支持高达32,768个令牌的长上下文LLMs。通过持续预训练,这些模型在长文本数据集上表现优异,尤其在长上下文任务中显著超越Llama 2。70B变体在长任务中超过gpt-3.5-turbo-16k。我们分析了位置编码的局限性及预训练设计选择的影响,验证了长上下文持续预训练的有效性。

LOGO - 通过高效偏好优化实现长上下文对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-24T00:00:00Z

我们开发了支持32,768个令牌的长上下文语言模型,通过持续预训练提升了长文本处理能力。模型在语言任务和研究基准上表现优异,尤其在长上下文任务上超越了Llama 2和gpt-3.5-turbo-16k。研究发现,长上下文预训练比从头开始的长序列预训练更高效,并分析了位置编码和预训练设计对性能的影响。

通过同源模型引导和上下文感知测量选择具有影响力的样本以实现长期上下文对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-21T00:00:00Z

研究发现,变换器在层次语言识别与生成中,即使没有特定位置编码,也能有效处理层次结构。因果掩蔽和起始标记有助于计算位置和深度,而显式位置编码可能影响序列长度的泛化能力。

Theoretical Analysis of Hierarchical Language Recognition and Generation by Transformers without Positional Encoding

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码