结构之法算法之道 ·

通透理解FlashAttention与FlashAttention2：全面降低显存读写、加快计算速度

💡 原文中文，约13900字，阅读约需34分钟。

📝

内容提要

本文介绍了Multi-Query Attention技术，可共享Key和Value矩阵，提高推理速度和降低显存占用。MQA和MHA在代码实现上有差异，本地加载ChatGLM2-6B模型。基于P-Tuning v2的微调方法可将参数量减少到原来的0.1%，微调后的模型效果更好。

🎯

🏷️

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一
阶跃星辰推出的Step 3.7 Flash模型在速度和成本上表现优异，推理速度超过400 tokens/s，单任务成本仅为Claude Opus 4.6的...
论独立游戏的起步立项方法论
在当下这个互联网时代做独立游戏，是幸运的，得益于各路大佬的经验分享，诸如引擎选择、外包渠道、素材获取，编程整合 […]
技嘉在COMPUTEX 2026展示多款生活美学主机
(全球TMT2026年6月5日讯)技嘉科技于COMPUTEX 2026展示多款生活美学主机，包含展现简约风格的 […]
技嘉于COMPUTEX 2026以“ENTER INFINITY”为主题开展
(全球TMT2026年6月5日讯)技嘉科技正式于COMPUTEX 2026以“ENTER INFINITY”为 […]
华为云发布Agentic AI系列新品打造智能时代“硅基黑土地”
史上最强游戏掌机来了！性能堪比 PS5，但……
今年掌机市场因元器件成本上涨而涨价，但英特尔等公司推出的新芯片提升了掌机性能和能效。微星和宏碁的新款掌机搭载英特尔 Arc G3 处理器，表现出色，续航能...