小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
《GPT 图解》笔记:Transformer

这篇文章介绍了Transformer模型的结构和关键概念。Transformer通过注意力机制替代RNN,解决了序列建模中的上下文依赖问题。引入位置编码使模型能够感知token的位置信息,注意力机制包括自注意力和交叉注意力。编码器和解码器结构相似,但解码器使用因果掩码以确保生成序列的自回归特性。整体上,Transformer实现了高效的并行计算和长距离依赖处理。

《GPT 图解》笔记:Transformer

Ying’s Blog
Ying’s Blog · 2026-06-07T07:18:45Z
Transformer压缩天赋解析:注意力机制暗藏超级计数器

Transformer模型在语言描述的简洁性上表现优异,能够用更小的模型表达复杂语言,展现出指数级和双指数级的优势。其注意力机制提高了信息处理的效率,但验证其能力非常困难,达到EXPSPACE完全级别。

Transformer压缩天赋解析:注意力机制暗藏超级计数器

极道
极道 · 2026-06-05T23:03:00Z

本文介绍了五篇关于大型语言模型(LLMs)的重要论文,涵盖其核心概念和技术。首先是“Attention Is All You Need”,提出了Transformer架构,强调自注意力机制。其次是GPT-3论文,展示了通过提示进行少量学习的能力。接着探讨了模型规模与性能的关系,分析大型模型为何更有效。然后是InstructGPT,讲述如何通过人类反馈优化模型以更好地遵循指令。最后介绍了检索增强生成(RAG),使模型能从外部获取信息以提高回答质量。这些论文为理解现代LLMs提供了基础。

五篇清晰解释大型语言模型的有趣论文

KDnuggets
KDnuggets · 2026-06-03T12:00:14Z

本文探讨了大型语言模型(LLM)的工作原理,类比于19世纪的差分机。LLM通过自回归机制动态生成输出,结合指令和数据。文章分析了RNN与Transformer的优缺点,强调Transformer在并行计算上的优势,并指出LLM在本质上是现代差分机,探讨了其在AI代理中的应用及记忆系统的重要性。

理解LLM的范式——它就是个差分机?

Est's Blog
Est's Blog · 2026-05-25T03:57:00Z
亚马逊的Panos Panay回应新款Fire手机传闻

亚马逊设备负责人Panos Panay表示,公司并不一定计划推出智能手机,但也没有完全否认此事。他提到正在开发一款名为“Transformer”的AI手机,目标与十年前的Fire Phone不同。Panay强调,智能手机形态正在经历转变,未来十年将继续变化,暗示亚马逊可能在探索新设备形式。

亚马逊的Panos Panay回应新款Fire手机传闻

The Verge
The Verge · 2026-05-13T08:36:42Z

神经网络通过前向传播、损失计算、反向传播和梯度下降进行训练。每个神经元执行线性打分和非线性激活,多个神经元组成层,层与层之间的非线性使网络能够拟合复杂函数。递归神经网络(RNN)通过引入状态,克服了多层感知器(MLP)在序列任务中的局限性。训练过程是参数在损失曲面上逐步优化的过程。

【Transformer 与注意力机制】08.5 神经网络基础:从 MLP 到 RNN 的最后一块地基

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-05-10T00:00:00Z
Transformer压缩能力强到变态:省字省到维度打击

这篇论文探讨了Transformer模型在表达复杂规律时的压缩能力,显示其能以极短的代码描述复杂语言,远超传统模型。研究指出,Transformer的验证难度极高,计算量达到双指数级,几乎无法验证其输出的可靠性。尽管注意力机制使得Transformer高效处理信息,但也导致其可解释性差,使用时需谨慎。整体而言,Transformer的强大在于其压缩能力,但理解其内部机制非常困难。

Transformer压缩能力强到变态:省字省到维度打击

极道
极道 · 2026-05-04T23:06:00Z
DeepSeek V4最大的遗憾

Engram是DeepSeek与北大联合开源的知识查找模块,旨在提升大模型的记忆与效率。尽管在DeepSeekV4中未出现,Engram的理念和应用仍在发展。研究表明,Engram通过优化Transformer结构,提升了模型的推理能力和知识检索效率,显示出在内存管理和视觉任务中的潜力。

DeepSeek V4最大的遗憾

量子位
量子位 · 2026-05-03T03:43:37Z
AI数智时代:股票智能预测系统功能实战

本案例介绍了基于华为云码道的股票智能预测系统,利用Transformer算法和Tushare获取A股历史数据,预测未来5日价格。用户可通过可视化图表查看预测结果,系统适合个人开发者和企业使用。

AI数智时代:股票智能预测系统功能实战

华为云官方博客
华为云官方博客 · 2026-05-01T03:00:00Z

时序深度学习在量化金融中的应用面临挑战,包括标签和窗口口径错误、训练与推理统计分布不对齐、模型对随机种子的敏感性等。文章探讨了在量化场景中有效使用时序深度学习的方法,强调TCN和Transformer的适配问题,以及通过集成方法降低过拟合风险。工程实践中需关注模型的训练、推理延迟和监控指标,以确保模型的稳定性和有效性。

【量化交易】时间序列深度学习:TCN、Transformer 在量化的实践与陷阱

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-05-01T00:00:00Z
【效果逆天】零样本工业缺陷改变工业质检,颠覆YOLO系列模型效果

最近的零样本测试表明,利用多模态和Transformer大模型可以高效检测工业缺陷,如裂纹和污垢。这项技术实现了零样本检测,显著提高了项目交付速度,适用于多种样品和行业转换。

【效果逆天】零样本工业缺陷改变工业质检,颠覆YOLO系列模型效果

gloomyfish
gloomyfish · 2026-04-27T03:16:11Z

本文讨论了将单次点积扩展为批量点积的矩阵乘法,强调其在Transformer中的重要性。矩阵乘法通过并行计算显著提高了效率,尤其在GPU上。文章介绍了矩阵的基本定义、转置、乘法性质及其几何意义,强调了形状匹配的重要性,并指出矩阵乘法在深度学习中的广泛应用,如注意力机制和全连接层,揭示了其在AI计算中的核心地位。

【Transformer 与注意力机制】03 矩阵乘法的两种视角

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T03:00:00Z

点积是衡量向量对齐程度的重要运算,结合了长度和方向。在Transformer中,点积用于高效计算注意力。其代数和几何定义相辅相成,代数便于计算,几何提供直观理解。点积在高维空间有效,但需注意随机向量趋于正交的现象。与其他相似度度量相比,点积在工程应用中,尤其是在GPU并行计算时更具优势。

【Transformer 与注意力机制】02 向量与点积的几何直觉

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T02:00:00Z

本文探讨了Transformer中的前馈网络(FFN),强调其在模型中的重要性。FFN占据了大约三分之二的参数量,是模型存储知识的主要部分。文章分析了FFN的结构、设计选择及其与注意力机制的关系,指出FFN负责每个token的内部计算,而注意力处理token间的通信。现代模型普遍采用SwiGLU替代ReLU,以提高性能。FFN的逐位置计算特性使其在推理时具有并行处理的优势,但也带来了量化时的挑战。整体来看,FFN在Transformer中扮演着核心角色。

【Transformer 与注意力机制】26|前馈网络:那个看似平平无奇的两层 MLP,其实是「记忆」所在

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

本文讨论了Transformer模型中的位置编码,特别是正弦位置编码。由于自注意力机制的排列等变性,模型无法识别序列中token的顺序,因此需要引入位置信息。正弦位置编码通过sin和cos函数提供相对位置的线性表达能力,允许模型在不同位置之间进行有效学习。文章还探讨了绝对位置编码和相对位置编码的表现差异,强调了位置编码在模型性能和外推能力中的重要性。

【Transformer 与注意力机制】21|位置编码:为什么需要它,为什么用正弦

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

本文探讨了预训练模型的三种主要目标:自回归语言建模(GPT)、掩码语言建模(BERT)和去噪序列到序列(T5/BART)。每种方法在训练任务上有所不同,导致模型在生成、理解和条件生成能力上的差异。GPT专注于续写,BERT擅长理解,而T5/BART兼顾生成与理解。最终,GPT因其统一接口和扩展性成为主流。

【Transformer 与注意力机制】30|预训练目标:BERT、GPT、T5 其实在学三种不同的事

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

本文探讨了Transformer模型中注意力机制的复杂度问题,特别是O(n²)的计算和显存瓶颈。尽管已有多种降复杂度方案,如FlashAttention和Sparse Attention,但主流模型仍使用O(n²)的全注意力机制。FlashAttention优化了显存使用,提升了性能,但计算复杂度未变。长上下文的挑战涉及复杂度、质量、位置编码和训练数据等多个因素。

【Transformer 与注意力机制】18|注意力的复杂度问题

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

本文讨论了学习Transformer时的常见误区,如过早追逐新论文、忽视RNN和误解注意力机制。强调基础知识的重要性,建议系统学习以更好地理解和应用Transformer架构。

【Transformer 与注意力机制】01|为什么要从这里开始

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

《Attention Is All You Need》论文通过WMT14英译德和英译法任务取得优异的BLEU分数,证明了Transformer架构的有效性。其训练效率显著优于前代模型,且不依赖递归和卷积,推动了机器翻译领域的变革。论文强调了注意力机制的重要性,并展示了其在现代硬件上的并行性优势,为后续大模型的发展奠定了基础。

【Transformer 与注意力机制】28|原论文实验结果:为什么 28.4 BLEU 足以改写路线图

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

本文探讨了在Transformer模型中将点积结果除以√d_k的原因。这一操作旨在避免softmax函数饱和,确保梯度有效传播。通过数学推导,证明了点积的方差为d_k,缩放后方差归一化为1,从而保持训练的稳定性。文章还讨论了不同维度下的训练效果及现代优化器如何与√d_k的设计结合,以提升模型性能。

15|Scaled Dot-Product:那个根号 d_k 是怎么来的

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码