量子位 ·

Kimi新架构让马斯克叹服！17岁高中生作者一战成名

💡 原文中文，约3700字，阅读约需9分钟。

📝

内容提要

17岁高中生陈广宇与Kimi团队提出的Attention Residuals技术，通过“旋转90度”改进注意力机制，提升模型训练效率25%。该论文引起马斯克和Karpathy的关注，展示了深度学习的新思路。

🎯

关键要点

17岁高中生陈广宇与Kimi团队提出的Attention Residuals技术，通过旋转90度改进注意力机制。
该技术提升了模型训练效率25%，引起马斯克和Karpathy的关注。
Attention Residuals允许模型在计算当前层时选择性回忆前面层的信息。
传统残差连接存在信息稀释和训练不稳定的问题。
Block AttnRes通过将层分块来降低计算复杂度，从O(L²)降至O(L·B)。
在Kimi Linear大模型上验证，Attention Residuals在相同计算预算下性能更优，训练计算量减少约20%。
陈广宇的成长经历展示了从兴趣到能力再到实际应用的过程。
论文被认为是时间-深度对偶性的应用，强调了深度神经网络和循环神经网络的相似性。

🏷️

继续阅读

泡沫消退后的冷思考：2026年，AI 工程师的真实生存图景
AI工程师的市场需求并未如传言般广泛，竞争反而激烈。过度依赖AI可能削弱开发者的核心能力，未来工程师需具备深刻理解和系统思维，而非仅会复制粘贴。
帮助测试DBD::Oracle
一小组志愿者在无资金支持下维护DBD::Oracle驱动，发布了v1.91_5开发版。希望用户进行测试，并建议在部署前设置CI以确保兼容性，欢迎反馈。
专访苹果医学家：房颤患者，为什么应该戴一块 Apple Watch？
苹果在中国大陆的 Apple Watch 推出「房颤迹象记录」功能，用户可通过健康 App 开启。该功能帮助用户记录心脏房颤状态，提升对房颤的认知与预防，...
不确定性
由于租的车位即将失去，导致两辆车无处停车，小区车位紧张，周末出行困难。考虑租房或卖房解决问题，但充满不确定性。此外，手机掉地后需要购买手机壳，购物时遇到麻...
浅学WebTransport API：下一代Web双向通信技术
WebTransport 是一种基于 HTTP/3 和 QUIC 协议的新型实时通信 API，具备低延迟、高吞吐和多路复用的特点。与 WebSocket ...
微软终于改了：Windows 11 用户文件夹名可自定义，但你现在还用不了
Windows 11 开发者预览版新增自定义用户文件夹名称功能，用户可选择文件夹名称，避免因邮箱前几位生成不满意的用户名。目前仅在 Beta 和 Dev ...

Kimi新架构让马斯克叹服！17岁高中生作者一战成名

内容提要

关键要点

标签

继续阅读