机器之心 ·

阶跃公开了自家新型注意力机制：KV缓存消耗直降93.7%，性能不减反增

💡 原文中文，约3000字，阅读约需7分钟。

📝

内容提要

AIxiv报道了一种新型注意力机制——多矩阵分解注意力（MFA），该机制显著降低了语言模型的推理成本，并提升了性能。MFA在内存使用上节省高达93.7%，兼容多种位置编码，解决了大语言模型的显存瓶颈，推动了其应用。

🎯

❓

MFA显著降低了语言模型的推理成本，内存使用节省高达93.7%，并在性能上超越了传统的注意力机制。

MFA通过减少键值缓存（KV Cache）的使用，降低了内存消耗，从而解决了显存瓶颈问题。

MFA增加了注意力头的数量和维度，采用低秩分解策略，保持高参数效率，同时减少内存使用。

MFA的设计实现简单，易于复现，对超参数敏感度低，且兼容多种位置编码。

MFA在扩展性实验中表现出与传统MHA相当的扩展能力，并在内存节省方面具有明显优势。

研究团队提出了广义多头注意力（GMHA）框架，以帮助理解不同MHA变种的设计。

🏷️

KVarN：华为用于KVCache量化的原生vLLM后端
华为开源的KVarN是一种KV Cache量化技术，通过Hadamard旋转和双轴方差归一化，有效解决大模型推理中的显存瓶颈。该技术在2-bit量化下保持...
谷歌Gemma 4 12B的性能几乎与26B基准相当——并可在您的笔记本电脑上运行
谷歌推出了Gemma 4 12B模型，旨在为标准笔记本电脑提供高性能的多模态智能。该模型内存占用比Gemma 4 26B小一半，但性能接近，支持本地运行，...
Valkey 为什么这么快？盘点 Valkey 中提升性能的黑科技
Valkey是Amazon ElastiCache的核心引擎，作为高性能开源内存数据库，单节点吞吐量可达119万RPS，集群可扩展至2000节点。Valk...
刚刚，姚顺雨现身！公开回应腾讯AI落后了吗？
现场爆满！
开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
OpenAI的GPT-5.5和GPT-5.4模型以及Codex已在Amazon Bedrock平台上线。这些模型专注于代码编写和复杂工作流程，支持开发者通...
AdaCodec：一种适用于 AI 生成视频的编解码器
上海研究提出AdaCodec编解码器，通过优化帧间信息存储，显著减少AI视频生成的资源消耗。该系统在保持性能的同时，视觉令牌使用量减少约86%，提高了视频...