小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了大语言模型在推理阶段的退化现象,如死循环和乱码等问题。退化源于自回归Transformer的注意力机制和数值精度,导致输出失控。文章分析了退化的数学根源、表现形式及其机制,并提出了多层防御策略,包括架构设计、数值工程和解码策略,以提高模型在生产环境中的稳定性。

【Transformer 与注意力机制】59|推理退化:为什么大模型会输出乱码、死循环和无意义文本

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-06-09T00:00:00Z
《GPT 图解》笔记:Transformer

这篇文章介绍了Transformer模型的结构和关键概念。Transformer通过注意力机制替代RNN,解决了序列建模中的上下文依赖问题。引入位置编码使模型能够感知token的位置信息,注意力机制包括自注意力和交叉注意力。编码器和解码器结构相似,但解码器使用因果掩码以确保生成序列的自回归特性。整体上,Transformer实现了高效的并行计算和长距离依赖处理。

《GPT 图解》笔记:Transformer

Ying’s Blog
Ying’s Blog · 2026-06-07T07:18:45Z
Transformer压缩天赋解析:注意力机制暗藏超级计数器

Transformer模型在语言描述的简洁性上表现优异,能够用更小的模型表达复杂语言,展现出指数级和双指数级的优势。其注意力机制提高了信息处理的效率,但验证其能力非常困难,达到EXPSPACE完全级别。

Transformer压缩天赋解析:注意力机制暗藏超级计数器

极道
极道 · 2026-06-05T23:03:00Z
《GPT 图解》笔记:QKV、多头注意力及掩码

本文探讨了注意力机制中的QKV、多头注意力和掩码。QKV分别代表查询、键和值,通过矩阵变换提取特征。多头注意力将输入分为多个子空间,从不同角度学习特征。掩码用于将不重要的信息权重设为接近“0”,以优化注意力计算。

《GPT 图解》笔记:QKV、多头注意力及掩码

Ying’s Blog
Ying’s Blog · 2026-05-30T01:09:06Z
Transformer压缩能力强到变态:省字省到维度打击

这篇论文探讨了Transformer模型在表达复杂规律时的压缩能力,显示其能以极短的代码描述复杂语言,远超传统模型。研究指出,Transformer的验证难度极高,计算量达到双指数级,几乎无法验证其输出的可靠性。尽管注意力机制使得Transformer高效处理信息,但也导致其可解释性差,使用时需谨慎。整体而言,Transformer的强大在于其压缩能力,但理解其内部机制非常困难。

Transformer压缩能力强到变态:省字省到维度打击

极道
极道 · 2026-05-04T23:06:00Z
定了,DeepSeek V4首发华为芯片!国产AI开始打破英伟达「垄断」

DeepSeek发布了V4系列模型,包括V4-Pro和V4-Flash,参数量分别为1.6T和284B,支持百万token上下文。V4-Pro在编程任务中表现优异,超越Sonnet和Opus系列。新模型采用改进的注意力机制和推理模式,提升了效率和准确性,并已开源,支持国产芯片,标志着国产AI技术的进步。

定了,DeepSeek V4首发华为芯片!国产AI开始打破英伟达「垄断」

爱范儿
爱范儿 · 2026-04-24T06:15:26Z
DeepSeek V4终于发布!打破最强闭源垄断,明确携手华为芯片

DeepSeek-V4正式上线,分为V4-Pro和V4-Flash两个版本,性能领先于同类产品。V4-Pro适合复杂任务,V4-Flash为经济版,适合简单任务。新模型支持1M上下文,采用创新的注意力机制,显著降低计算需求。API服务已更新,旧模型将在三个月后停用。

DeepSeek V4终于发布!打破最强闭源垄断,明确携手华为芯片

量子位
量子位 · 2026-04-24T04:17:45Z
最强开源模型 DeepSeek V4 发布,1M上下文,运行成本大降

DeepSeek V4 发布,具备 1M 上下文和显著提升的代码能力,推理性能接近顶尖模型。新注意力机制降低计算需求,支持更多请求。V4 Pro 价格上涨,但在知识和推理任务上表现优异。现已上线官网和 API,无法自行部署。

最强开源模型 DeepSeek V4 发布,1M上下文,运行成本大降

小众软件
小众软件 · 2026-04-24T04:05:20Z
读完 DeepSeek-V4 技术报告:这次最值得看的,不是“更大”,而是“更省”

DeepSeek-V4技术报告强调通过改进注意力机制和优化器,提高超长上下文处理效率,能够高效处理1M上下文,降低计算和缓存成本。模型在中文写作和白领任务中表现良好,但在复杂任务上仍需提升。整体目标是解决长上下文的成本问题,提供完整的技术方案。

读完 DeepSeek-V4 技术报告:这次最值得看的,不是“更大”,而是“更省”

清竹茶馆博客
清竹茶馆博客 · 2026-04-24T00:01:21Z
大模型架构的下半场

华中科技大学的研究团队提出了Flash Depth Attention和混合深度注意力(MoDA),旨在改善深度学习模型中层间的通信能力。新方法通过引入注意力机制,提升信息流动的质量,有望推动大模型架构的发展,提升模型性能。

大模型架构的下半场

量子位
量子位 · 2026-04-19T10:12:10Z

本文讨论了将单次点积扩展为批量点积的矩阵乘法,强调其在Transformer中的重要性。矩阵乘法通过并行计算显著提高了效率,尤其在GPU上。文章介绍了矩阵的基本定义、转置、乘法性质及其几何意义,强调了形状匹配的重要性,并指出矩阵乘法在深度学习中的广泛应用,如注意力机制和全连接层,揭示了其在AI计算中的核心地位。

【Transformer 与注意力机制】03 矩阵乘法的两种视角

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T03:00:00Z

本文探讨了Transformer模型中注意力机制的复杂度问题,特别是O(n²)的计算和显存瓶颈。尽管已有多种降复杂度方案,如FlashAttention和Sparse Attention,但主流模型仍使用O(n²)的全注意力机制。FlashAttention优化了显存使用,提升了性能,但计算复杂度未变。长上下文的挑战涉及复杂度、质量、位置编码和训练数据等多个因素。

【Transformer 与注意力机制】18|注意力的复杂度问题

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

本文回顾了2014年Bahdanau等人提出的注意力机制在神经机器翻译中的应用。该机制通过动态计算上下文向量,克服了固定长度向量的局限性,显著提升了长句翻译的质量。Bahdanau的研究为现代自然语言处理中的注意力机制奠定了基础,尽管后来被Transformer取代,但其核心思想仍然具有深远影响。

【Transformer 与注意力机制】12|Bahdanau Attention:注意力的早期形态

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

本文讨论了学习Transformer时的常见误区,如过早追逐新论文、忽视RNN和误解注意力机制。强调基础知识的重要性,建议系统学习以更好地理解和应用Transformer架构。

【Transformer 与注意力机制】01|为什么要从这里开始

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

本文探讨了RNN(循环神经网络)与Transformer架构的演变。RNN面临长程依赖、梯度稳定和训练并行的三难问题,LSTM部分解决了梯度问题,但仍无法并行训练。2017年,Transformer通过完全依赖注意力机制解决了这三难,成为主流架构。尽管Transformer在长程依赖和并行性上表现优异,但其复杂度和内存消耗仍是局限。未来可能会出现结合循环结构的新模型,如Mamba和RWKV,以应对Transformer的不足。

【Transformer 与注意力机制】10 RNN 的根本局限:为什么需要 Transformer

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

本文探讨了Transformer中的前馈网络(FFN),强调其在模型中的重要性。FFN占据了大约三分之二的参数量,是模型存储知识的主要部分。文章分析了FFN的结构、设计选择及其与注意力机制的关系,指出FFN负责每个token的内部计算,而注意力处理token间的通信。现代模型普遍采用SwiGLU替代ReLU,以提高性能。FFN的逐位置计算特性使其在推理时具有并行处理的优势,但也带来了量化时的挑战。整体来看,FFN在Transformer中扮演着核心角色。

【Transformer 与注意力机制】26|前馈网络:那个看似平平无奇的两层 MLP,其实是「记忆」所在

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

《Attention Is All You Need》论文通过WMT14英译德和英译法任务取得优异的BLEU分数,证明了Transformer架构的有效性。其训练效率显著优于前代模型,且不依赖递归和卷积,推动了机器翻译领域的变革。论文强调了注意力机制的重要性,并展示了其在现代硬件上的并行性优势,为后续大模型的发展奠定了基础。

【Transformer 与注意力机制】28|原论文实验结果:为什么 28.4 BLEU 足以改写路线图

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

本文探讨了注意力机制的原理,强调其源于认知心理学与神经科学。注意力是处理信息的方式,涉及动态分配权重。人类的注意力是“软”的,允许同时关注多个信息。机器翻译中的对齐问题促使了软对齐的出现,注意力机制通过加权平均实现信息提取。softmax是实现可微选择的关键,注意力机制广泛应用于多个领域,而非仅限于Transformer。

【Transformer 与注意力机制】11|「注意力」的直觉

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

Transformer 将进化为混合架构,结合注意力机制、长程状态和外部记忆等模块,以更高效地处理信息并支持多模态输入。硬件发展将影响架构设计,评估方式将变得复杂,强调系统协作和可控性。理解 Transformer 的成功在于其抽象层次和应对未来挑战的能力。

【Transformer 与注意力机制】58|后 Transformer 时代:架构会消失还是会进化

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

本系列文章探讨了Transformer及其注意力机制的核心概念,包括注意力的定义、Q/K/V矩阵的作用、Transformer取代RNN的原因、模型训练与规模的关系,以及未来可能的架构替代方案。通过58篇文章,读者可以深入理解相关理论与实践。

【Transformer 与注意力机制】系列总览

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码