机器之心 ·

「注意力实际上是对数的」？七年前的Transformer还有新发现，Karpathy点赞

💡 原文中文，约4200字，阅读约需10分钟。

📝

内容提要

一篇博客讨论了Transformers中的注意力机制，认为其计算复杂度应视为对数级别。作者提出“work-depth模型”以更全面地分析算法复杂度，指出传统评估方法不足以反映现代多核计算机的性能。尽管理论上注意力机制为对数复杂度，但由于内存限制，实际复杂度更接近O(n log n)。

🎯

❓

Transformers中的注意力机制的计算复杂度通常被认为是O(n^2)，但实际复杂度更接近O(n log n)。

work-depth模型用于分析算法复杂度，关注操作数量和计算图的深度，强调不可并行的顺序操作对复杂度的影响。

因为现代计算机通常是多核的，仅用时间复杂度来评估算法的快慢无法全面反映其性能，尤其是并行算法的优势。

注意力机制的深度复杂度分析显示为O(logn + logd)，但由于内存限制，实际复杂度更接近O(n log n)。

逐个元素相乘的时间复杂度在并行执行时实际上接近常数时间，而不是线性时间。

未来计算芯片的发展需要考虑权重的存储和访问模式，以提高计算效率。

🏷️

国家科学基金会续资麻省理工学院主导的人工智能与物理学研究所，扩展新的发现模式
麻省理工学院主导的人工智能与基础相互作用研究所（IAIFI）获得国家科学基金会续资，年资助额从400万美元增至498万美元。IAIFI致力于将人工智能与物...
[MAF预定义ChatClient中间件-03]CachingChatClient——利用缓存省钱省时间 - Artech
CachingChatClient是一个中间件，用于缓存LLM调用结果，减少重复调用的时间和费用。它通过检查缓存返回相同输入的响应，若不存在则调用LLM并...
别把 Go 写成 Java：毁掉项目从过度架构开始
本文探讨了Go语言开发中的过度架构问题，强调应避免复杂的目录结构和不必要的抽象。建议采用扁平化的项目结构，按业务能力划分包，减少内部依赖，保持代码简单易懂...
Author Talks: How to succeed when systems fail
What if the fastest way to transform an organization is through crisis? Marin...
2026 06 05 HackerNews
特德·姜批评将人工智能拟人化，指出大型语言模型（LLM）并不具备意识或情感。加州大学伯克利分校因学生过度依赖AI，计算机科学课程的不及格率显著上升。美国政...
23学习周刊-总第266期-2026年第23周
本周刊聚焦运维、Go语言和Vue技术生态，推荐多个优秀项目，包括基于SwiftUI的Mac终端应用muxy、轻量级剪贴板管理器Buffer和Rust开发的...