量子位 ·

揭秘注意力机制真正起源！10年前3项研究几乎同时独立提出，背后故事细节被Karpathy晒邮件公开了

💡 原文中文，约3700字，阅读约需9分钟。

📝

内容提要

注意力机制起源于2014年Bengio实验室的研究，而非2017年Transformer论文。实习生Bahdanau提出了简化方案，灵感来自翻译过程中的信息检索。Karpathy在公开邮件中强调了命名对技术传播的重要性。

🎯

注意力机制起源于2014年Bengio实验室的研究，而非2017年Transformer论文。
实习生Dzmitry Bahdanau提出了简化方案，灵感来自翻译过程中的信息检索。
Karpathy强调命名对技术传播的重要性，原名RNNSearch不够直观，后来改为注意力。
2014年的Attention与Alex Graves的Neural Turing Machines和Jason Weston的Memory Networks有相似之处，但动机不同。
注意力机制的实现减轻了编码器的负担，使信息可以分布在整个序列中。
Karpathy对注意力机制的起源论文未获得足够关注表示惊讶，强调好名字对技术传播的影响。

❓

注意力机制起源于2014年Bengio实验室的研究，而非2017年Transformer论文。

实习生Dzmitry Bahdanau提出了注意力机制的简化方案。

Karpathy强调了命名对技术传播的重要性。

注意力机制允许解码器选择性地检索信息，减轻了编码器将所有信息编码为固定长度向量的负担。

2014年的Attention与Alex Graves的Neural Turing Machines和Jason Weston的Memory Networks有相似之处，但动机不同。

原名“RNNSearch”不够直观，后来在Yoshua Bengio的建议下改为“注意力”，更能抓住核心概念。

🏷️

吃完饭免疫力变强的真实机制解析：脂质驱动T细胞升级
研究表明，餐后血脂提升T细胞的代谢能力，增强免疫功能。脂质通过乳糜颗粒进入血液，激活mTOR通路，促进T细胞增殖和杀伤力。这一机制对疫苗效果和癌症治疗（如...
在Kubernetes中管理Valkey集群
Over the last several years, Percona has introduced several rock-star Kuberne...
网友吐槽：OpenClaw又触发了Claude Code当场翻脸还扣钱！
有趣的是，如果你最近的提交中在 JSON 数据块里提到了 OpenClaw，Claude Code 要么会拒绝你的请求，要么会额外收费。一句“openc...
Christophe Pettus: On pgvectorscale, and Hybrid Search Without an Elasticsearch Sidecar
pgvector is excellent. It is also, at large scale, expensive — because the HN...
保罗·梅尔基奥雷：Posette 2026
Posette 2026是一个免费的虚拟开发者活动，专注于PostgreSQL生成列的应用与演变。活动将通过实际案例探讨生成列的性能、存储和查询行为，并结...
OpenClaw v2026.4.29：从消息控制到记忆系统彻底进化
OpenClaw v2026.4.29版本改进了自动化对话、记忆系统和基础设施稳定性。新增的active-run引导和visible-reply机制增强了...