李文举 ·

MHA, GQA, MQA, MLA的代码

💡 原文中文，约17400字，阅读约需42分钟。

📝

内容提要

本文总结了MHA、GQA、MQA和MLA等注意力结构的源码及其演变过程，涵盖多头注意力、前馈神经网络和层归一化等实现细节。

🎯

❓

MHA实现了多头注意力机制，包含线性变换、注意力分数计算和输出生成。

GQA在MHA的基础上增加了num_kv_heads参数，允许更灵活的头部配置。

MLA引入了低秩投影和旋转位置编码，增强了注意力机制的表现。

前馈神经网络包含两个线性层和激活函数，支持多种激活函数。

可以通过创建MLABlock实例并调用其forward方法来进行前向传播。

MQA与GQA类似，但将num_kv_heads设置为1，简化了头部配置。

🏷️

代码可以让 AI 写，但设计得由你做：重塑工程师的“算法直觉”
在AI时代，编码成本降低，设计和判断的价值上升。文章探讨如何通过算法图谱提升工程师的“算法直觉”，连接LeetCode模式与实际工程。课程分为五季，涵盖数...
TIL: elisp-fontify-semantically——让 Emacs 看懂你的 Elisp 代码
Emacs 31 新增 elisp-fontify-semantically，启用后 Emacs 能区分每个符号的角色——函数、宏、局部变量、featur...
How ALS GeoAnalytics LITHOLENS ™ revolutionizes core logging through machine learning with Amazon EKS
This post explores how ALS GeoAnalytics successfully deployed LITHOLENS ™ wit...
How Synthesia optimizes generative AI video inference on Amazon EC2 G7e instances
This post introduces a video decoding optimization technique that we have ide...
Christophe Pettus: Patch PgBouncer Today
PgBouncer 1.25.2 shipped a patch for a pre-authentication crash (CVE-2026-666...
20260519的胡言乱语
本文介绍了5个Git命令，帮助快速诊断代码库状态，识别高变动文件、Bug集群、团队成员及风险区域，从而提高代码阅读和管理效率。