小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
《GPT 图解》笔记:QKV、多头注意力及掩码

本文探讨了注意力机制中的QKV、多头注意力和掩码。QKV分别代表查询、键和值,通过矩阵变换提取特征。多头注意力将输入分为多个子空间,从不同角度学习特征。掩码用于将不重要的信息权重设为接近“0”,以优化注意力计算。

《GPT 图解》笔记:QKV、多头注意力及掩码

Ying’s Blog
Ying’s Blog · 2026-05-30T01:09:06Z
LLM 训练与推理的基本理解

本文探讨了大型语言模型(LLM)的训练与推理过程,重点介绍了向量点积、Softmax、LayerNorm、Token化、BPE编码、位置嵌入、自注意力机制和多头注意力等关键概念。这些技术使模型能够理解词语的上下文关系并生成连贯的文本。训练过程中通过损失函数和反向传播优化模型参数,以提高预测准确性。

LLM 训练与推理的基本理解

Joway's Blog
Joway's Blog · 2026-05-17T00:00:00Z

本文探讨了自注意力机制的核心概念及其与传统模型的比较。自注意力允许序列内的每个token相互沟通,解决了RNN的长依赖问题。由于自注意力对位置无知,需通过位置编码注入位置信息。多头注意力使不同头学习不同关系。尽管自注意力在长序列处理上表现优异,但其计算复杂度为O(N²),引发了对优化的研究。

【Transformer 与注意力机制】14|Self-Attention:让序列自己看自己

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

多头注意力机制的核心在于独立计算不同的注意力分布,而非简单平均。理解位置限制和计算复杂度是后续研究的重点。

【Transformer 与注意力机制】16|Multi-Head Attention:为什么要分多个头

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z
最后一遍学习Transformer

本文介绍了Transformer模型的结构与工作原理,包括输入嵌入、位置编码、自注意力机制和多头注意力等模块,强调了缩放点积注意力的重要性及其通过交叉熵损失函数进行训练的方法。

最后一遍学习Transformer

plus studio
plus studio · 2026-01-02T00:00:00Z
变换器的思维方式:驱动语言模型运作的信息流

大型语言模型(LLMs)利用变换器架构将文本转化为数字表示。文本首先被分割为标记,随后每个标记转化为向量并注入位置信息。模型通过多头注意力机制和前馈神经网络逐步学习文本关系,最终预测下一个单词,从而生成连贯的输出。

变换器的思维方式:驱动语言模型运作的信息流

KDnuggets
KDnuggets · 2025-12-15T15:00:43Z
标记的旅程:变换器内部究竟发生了什么

本文介绍了变换器模型如何将输入标记转换为上下文感知的表示和下一个标记的概率。文本经过标记化和嵌入处理,加入位置信息。通过多头注意力机制和前馈神经网络,逐层提取和丰富标记的上下文信息,最终通过线性层和softmax计算生成下一个标记的概率。这一过程展示了大型语言模型的文本处理与生成能力。

标记的旅程:变换器内部究竟发生了什么

MachineLearningMastery.com
MachineLearningMastery.com · 2025-11-26T14:24:54Z
深入理解大模型 1:Transformer,大模型的基石

本文探讨了Transformer模型在序列建模中的重要性,解决了RNN和CNN在并行计算及长距离依赖方面的局限。通过多头注意力机制和位置编码,Transformer显著提升了语言建模和机器翻译的效果。

深入理解大模型 1:Transformer,大模型的基石

木鸟杂记
木鸟杂记 · 2025-09-10T13:45:26Z
多头注意力与分组查询注意力的温和介绍

本文介绍了多头注意力机制和分组查询注意力的基本概念。注意力机制帮助模型理解序列中词语之间的关系,尤其在长距离依赖情况下。多头注意力通过多个投影矩阵并行处理信息,提高模型表现;分组查询注意力通过共享键和值的投影降低计算成本,提升效率。

多头注意力与分组查询注意力的温和介绍

MachineLearningMastery.com
MachineLearningMastery.com · 2025-06-19T20:00:58Z
注意力可能是我们所需的一切……但为什么?

本文探讨了变换器架构中的注意力机制,强调其在生成式AI模型中的关键作用。与传统递归神经网络不同,注意力机制能够同时处理文本序列中的所有标记,捕捉长距离依赖关系,从而提升语言理解能力。多头注意力机制进一步增强了模型的表现,使其能够学习不同的语言和语义特征。

注意力可能是我们所需的一切……但为什么?

MachineLearningMastery.com
MachineLearningMastery.com · 2025-05-08T13:58:35Z

变压器是一种深度学习架构,通过编码器和解码器结构及多头注意力机制,克服了传统自然语言处理模型的局限性,有效捕捉长距离依赖关系。它在自然语言处理和计算机视觉领域取得了重大突破,推动了GPT、BERT等大型语言模型的发展。

变压器到底是什么?

KDnuggets
KDnuggets · 2025-04-10T12:00:01Z
DeepSeek-V3 开源!高效混合专家语言模型 | 开源日报 No.563

DeepSeek-V3 是一款强大的混合专家语言模型,拥有671B参数,采用多头潜在注意力架构,经过高效训练和微调,支持多令牌预测,性能优于其他开源模型。DecryptPrompt和Semantra等项目推动AIGC应用,提供丰富的资源和工具,适合各种用户。

DeepSeek-V3 开源!高效混合专家语言模型 | 开源日报 No.563

开源服务指南
开源服务指南 · 2025-04-06T15:29:19Z

本研究探讨了变压器模型在短序列训练后对长序列泛化不良的问题。通过分析消失方差,证明了长序列导致多头注意力模块输出方差降低。实验结果表明,在注意力输出后应用层归一化能显著改善长度泛化效果,减少分布偏移。

On Vanishing Variance in Transformer Length Generalization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-03T00:00:00Z

本研究提出了一种新模型,通过语言无关的数据增强和多头注意力加权嵌入,解决低资源班图语言文本分类中的数据短缺问题,提升分类性能。

Multi-Head Attention Guided Low-Resource Sentiment Classification Embedding Model

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-25T00:00:00Z

本文提出了一种名为MHA2MLA的数据高效微调方法,旨在降低深度学习模型中多头注意力推理的成本。研究表明,该方法能够使用0.3%到0.6%的数据恢复性能,同时显著降低推理成本并压缩KV缓存。

Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLM

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z
你是否想过人工智能是如何像你一样“看”的?初学者的注意力指南

大型语言模型中的注意力机制帮助理解单词间关系,生成有意义的回应。注意力机制像聚光灯,聚焦句子中的不同单词,评估其重要性。多头注意力使模型从多个角度理解文本,处理长距离依赖,提升自然语言处理能力。

你是否想过人工智能是如何像你一样“看”的?初学者的注意力指南

DEV Community
DEV Community · 2025-02-19T02:05:21Z

本研究提出了一种新方法——多头注意力特征融合(MHAFF),结合卷积神经网络与Transformer的优势,牛只识别准确率分别达到99.88%和99.52%。

Multi-Head Attention Feature Fusion: Combining CNN and Transformer for Cattle Recognition

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-09T00:00:00Z

本研究提出了一种利用面部深度图增强面部操纵检测鲁棒性的方法。通过面部深度图变换器和多头深度注意力机制,有效捕捉操纵导致的局部深度异常,实验结果表明该方法在检测中具有显著优势。

Exploring Depth Information for Detecting Manipulated Face Videos

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-27T00:00:00Z

本研究提出了一种新型变压器架构MemoryFormer,通过使用内存查找表替代全连接层的线性投影,降低了大型语言模型的计算复杂度,优化了多头注意力操作,实现了效率与性能的新平衡。

MemoryFormer: Minimizing Transformer Computation by Removing Fully Connected Layers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-20T00:00:00Z

本研究提出了一种新型融合模型OMniBAN,旨在提高医学视觉问答的效率。该模型结合正交损失、多头注意力和双线性注意力网络,实验结果表明其在医学视觉问答基准测试中优于传统模型,并降低了计算成本,具有临床应用潜力。

Efficient Bilinear Attention Fusion for Medical Visual Question Answering

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码