小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文回顾了2014年Bahdanau等人提出的注意力机制在神经机器翻译中的应用。该机制通过动态计算上下文向量,克服了固定长度向量的局限性,显著提升了长句翻译的质量。Bahdanau的研究为现代自然语言处理中的注意力机制奠定了基础,尽管后来被Transformer取代,但其核心思想仍然具有深远影响。

【Transformer 与注意力机制】12|Bahdanau Attention:注意力的早期形态

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

本文深入探讨了Transformer模型中的查询(Q)、键(K)、值(V)机制。Q、K、V的分离设计使模型能够独立优化索引和内容,从而提升表达能力。通过softmax函数,模型实现了基于相似度的加权检索,促进信息的有效融合。文章还分析了Q/K/V的几何意义及其在自注意力中的应用,强调了缩放因子√d_k的重要性,以避免softmax饱和。

【Transformer 与注意力机制】13|Q/K/V 三件套:把 Bahdanau 抽象成一个公式

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

注意力机制起源于2014年Bengio实验室的研究,而非2017年Transformer论文。实习生Bahdanau提出了简化方案,灵感来自翻译过程中的信息检索。Karpathy在公开邮件中强调了命名对技术传播的重要性。

揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出,背后故事细节被Karpathy晒邮件公开了

量子位
量子位 · 2024-12-04T08:35:41Z
被忽略的起点?Karpathy揭秘最初的注意力论文被Transformer光芒掩盖的故事

著名AI研究者Andrej Karpathy指出,注意力机制最早由Dzmitry Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》中提出,早于《Attention is All You Need》三年。他强调了注意力机制在深度学习中的重要性,并提到多位研究者的贡献,引发广泛关注。

被忽略的起点?Karpathy揭秘最初的注意力论文被Transformer光芒掩盖的故事

机器之心
机器之心 · 2024-12-04T07:51:22Z

流行的深度学习模型,其中的思想以及模型在后面其他任务中也经常使用,所以这里介绍一些常用好用的模型.主要介绍attention和transformer系列.

transformer family(一):from Bahdanau Attention to transformers

Sekyoro的博客小屋
Sekyoro的博客小屋 · 2023-11-08T03:14:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码