小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
《GPT 图解》笔记:Transformer

这篇文章介绍了Transformer模型的结构和关键概念。Transformer通过注意力机制替代RNN,解决了序列建模中的上下文依赖问题。引入位置编码使模型能够感知token的位置信息,注意力机制包括自注意力和交叉注意力。编码器和解码器结构相似,但解码器使用因果掩码以确保生成序列的自回归特性。整体上,Transformer实现了高效的并行计算和长距离依赖处理。

《GPT 图解》笔记:Transformer

Ying’s Blog
Ying’s Blog · 2026-06-07T07:18:45Z

本文探讨了长上下文模型的工程挑战与解决方案,包括位置编码、注意力计算复杂度、训练策略和推理优化。随着上下文长度增加,模型面临计算复杂度和显存限制。采用RoPE、YaRN等技术扩展位置编码,并结合线性注意力和稀疏注意力优化计算效率。在训练方面,采用短预训练与长继续预训练相结合的策略,推理时利用前缀缓存和KV压缩等技术提高效率。

【大模型基础设施工程】16:长上下文工程

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

本文探讨了自注意力机制的核心概念及其与传统模型的比较。自注意力允许序列内的每个token相互沟通,解决了RNN的长依赖问题。由于自注意力对位置无知,需通过位置编码注入位置信息。多头注意力使不同头学习不同关系。尽管自注意力在长序列处理上表现优异,但其计算复杂度为O(N²),引发了对优化的研究。

【Transformer 与注意力机制】14|Self-Attention:让序列自己看自己

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

《Attention Is All You Need》论文于2017年发表,提出了Transformer架构,摆脱了RNN和CNN,专注于并行化训练。其核心贡献包括多头自注意力和位置编码,显著提升了机器翻译的训练速度。尽管初期反响平平,但后来成为大语言模型的基础,影响深远。作者团队背景各异,后续大多离开Google,成为AI领域的重要人物。

【Transformer 与注意力机制】19|《Attention Is All You Need》论文背景

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

本文讨论了Transformer模型中的位置编码,特别是正弦位置编码。由于自注意力机制的排列等变性,模型无法识别序列中token的顺序,因此需要引入位置信息。正弦位置编码通过sin和cos函数提供相对位置的线性表达能力,允许模型在不同位置之间进行有效学习。文章还探讨了绝对位置编码和相对位置编码的表现差异,强调了位置编码在模型性能和外推能力中的重要性。

【Transformer 与注意力机制】21|位置编码:为什么需要它,为什么用正弦

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z
学习大型语言模型中变压器架构的演变

变压器在机器学习中至关重要,推动了聊天机器人、搜索引擎和机器翻译的发展。freeCodeCamp.org推出了一门新课程,帮助初学者理解变压器架构的改进,内容涵盖位置编码、注意机制、归一化和激活函数等关键概念,适合学生和工程师,观看时间为3小时。

学习大型语言模型中变压器架构的演变

freeCodeCamp.org
freeCodeCamp.org · 2025-06-26T13:09:08Z
位置编码中的插值及YaRN在更大上下文窗口中的应用

本文探讨了位置编码在处理不同长度序列时的插值和外推方法。正弦编码和RoPE能够轻松进行外推,而学习编码仅支持插值。YaRN方法通过不均匀缩放RoPE频率,提升了模型在长序列上的表现,使其能够在不重新训练的情况下处理更长的输入序列。

位置编码中的插值及YaRN在更大上下文窗口中的应用

MachineLearningMastery.com
MachineLearningMastery.com · 2025-06-17T05:00:10Z
变换器模型中的位置编码

本文介绍了变换器模型中的位置编码,强调其在自然语言处理中的重要性。位置编码帮助模型理解词语顺序,主要有四种类型:正弦位置编码、学习位置编码、旋转位置编码和相对位置编码。每种编码方式各有优缺点,正弦编码适用于长序列,学习编码适应数据特征,旋转编码提高性能,相对编码关注词间距离。

变换器模型中的位置编码

MachineLearningMastery.com
MachineLearningMastery.com · 2025-06-15T05:06:17Z

本研究提出了一种二维语义感知位置编码($ ext{SaPE}^2$),有效解决了现有位置编码无法捕捉图像补丁间语义关系的问题,从而显著提升了模型的泛化能力和视觉任务性能。

Two-Dimensional Semantic-Aware Positional Encoding for Vision Transformers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-14T00:00:00Z
解读人工智能术语:开发者理解基础知识指南

本文介绍了人工智能中的基本概念,包括分词、向量嵌入、位置编码和自注意力机制。分词将文本拆分为可处理单元,向量嵌入为单元赋予数学意义,位置编码帮助模型理解词序,自注意力机制使模型根据上下文理解词义。这些概念是现代大型语言模型理解和处理语言的基础。

解读人工智能术语:开发者理解基础知识指南

DEV Community
DEV Community · 2025-04-09T06:29:48Z

本研究探讨了音乐生成中高效位置编码(PE)的应用挑战,并比较了不同的PE方法。提出的新方法RoPEPool通过提取时间序列的因果关系并结合结构先验,在旋律和声化任务中表现出优越性。

所有StrIPEs:结构信息驱动的位置编码在高效音乐生成中的研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-07T00:00:00Z
Qwen2.5-Omni:迈向通用多模态AI的里程碑——解读首个支持实时多模态输入与输出的统一模型

Qwen2.5-Omni实现了多模态AI的端到端感知与生成,支持实时交互。其核心技术包括时间对齐的多模态位置编码、Thinker-Talker架构和流式处理,适用于语音对话和视频分析等场景,标志着向通用人工智能的进步。

Qwen2.5-Omni:迈向通用多模态AI的里程碑——解读首个支持实时多模态输入与输出的统一模型

我爱自然语言处理
我爱自然语言处理 · 2025-03-27T02:34:23Z

本研究提出了一种新型位置编码方法STRING,克服了大型语言模型中旋转位置编码的局限性。STRING在保持低计算开销的同时,实现了精确的平移不变性,并在视觉变换器中应用,显著提升了开放词汇物体检测和机器人控制的效果。

Learning RoPEs: Enhancing 2D and 3D Positional Encoding with STRING

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-04T00:00:00Z
阶跃公开了自家新型注意力机制:KV缓存消耗直降93.7%,性能不减反增

AIxiv报道了一种新型注意力机制——多矩阵分解注意力(MFA),该机制显著降低了语言模型的推理成本,并提升了性能。MFA在内存使用上节省高达93.7%,兼容多种位置编码,解决了大语言模型的显存瓶颈,推动了其应用。

阶跃公开了自家新型注意力机制:KV缓存消耗直降93.7%,性能不减反增

机器之心
机器之心 · 2025-01-17T05:22:11Z

本文研究了奇偶性语言的识别问题,提出了一种新型三层变压器,其参数矩阵和位置编码与输入长度无关,显著改进了Chiang和Cholak的构造,提高了处理效率和简洁性。

完全均匀变压器用于奇偶性识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-05T00:00:00Z

本研究提出了一种新方法,通过结合二次长度差异的位置编码(LDPE)在输入嵌入中,解决大语言模型生成结构化输出时的响应长度控制问题。实验结果表明,该方法能够在不影响响应质量的前提下,实现精确的长度控制。

Precise Length Control in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-16T00:00:00Z
HuggingFace工程师亲授:如何在Transformer中实现最好的位置编码

有效的复杂系统源于简单系统。Transformer模型通过位置编码增强自注意力机制。HuggingFace工程师提出的旋转位置编码(RoPE)改进了位置编码方法,提升了模型对序列关系的理解。RoPE利用旋转矩阵处理相对位置,适用于多维数据,未来可能会有更多创新。

HuggingFace工程师亲授:如何在Transformer中实现最好的位置编码

机器之心
机器之心 · 2024-11-27T05:14:40Z

本研究探讨了BFloat16格式与Rotary Positional Embedding(RoPE)结合时在长上下文训练中的数值问题。通过开发AnchorAttention方法,解决了位置编码偏差,提升了长上下文处理能力,训练时间缩短超过50%,同时保持了大型语言模型的任务能力。

When Precision Meets Position: BFloat16 Breaks RoPE in Long-Context Training

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-20T00:00:00Z

本研究探讨了图神经网络(GNNs)和图变压器(GTs)中位置编码(PEs)的孤立性问题,建立了统一框架来评估PEs的应用,并引入了稀疏化GRIT注意机制,发现新GNN架构与PEs的结合能够超越现有方法。

图神经网络和图变压器的位置信息编码基准测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-19T00:00:00Z

本研究提出了一种新型局部-全局注意力机制,解决了对象检测中局部与全局特征平衡不足的问题。该机制结合多尺度卷积与位置编码,动态调整局部与全局注意力的重要性,显著提升了不同尺度对象的检测能力,尤其在多类和小物体检测中表现优异。

Local-Global Attention: An Adaptive Mechanism for Multi-Scale Feature Fusion

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-14T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码