量子位 ·

Kimi开源新线性注意力架构，首次超越全注意力模型，推理速度暴涨6倍

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

Kimi开源的线性注意力架构首次超越全注意力模型，推理速度提升6倍，KV缓存减少75%。其核心创新Kimi Delta Attention引入细粒度遗忘门控，确保长上下文中的稳定性。该模型在多个基准测试中表现优异，标志着AI架构进入多元创新时代。

🎯

关键要点

Kimi开源的线性注意力架构首次超越全注意力模型，推理速度提升6倍。
KV缓存需求减少75%。
Kimi Linear的核心创新是Kimi Delta Attention，引入细粒度遗忘门控，确保长上下文中的稳定性。
Kimi Linear采用3:1的混合层设计，结合线性注意力和全注意力。
模型通过Diagonal-Plus-Low-Rank结构优化注意力矩阵，提高并行计算效率。
Kimi Linear在多个基准测试中表现优异，超越传统Transformer。
AI架构正在告别对传统Transformer的依赖，迈向多元创新时代。

❓

延伸问答

Kimi Linear架构的主要创新是什么？

Kimi Linear的主要创新是Kimi Delta Attention（KDA），引入了细粒度遗忘门控，确保长上下文中的稳定性。

Kimi Linear相比传统Transformer有哪些优势？

Kimi Linear在推理速度上提升了6倍，KV缓存需求减少了75%，并在多个基准测试中表现优异。

Kimi Linear如何优化注意力计算？

Kimi Linear采用Diagonal-Plus-Low-Rank结构和分块并行计算，提升了并行计算效率，减少了显存I/O开销。

Kimi Linear的混合层设计是什么样的？

Kimi Linear采用3:1的混合层设计，每3层线性注意力后加1层全注意力，兼顾全局语义建模和资源节省。

Kimi Linear在长上下文任务中的表现如何？

Kimi Linear在长上下文推理中解码速度提升最高达6倍，同时保持了精度和稳定性。

Kimi Linear的开源对AI架构有什么影响？

Kimi Linear的开源标志着AI架构进入多元创新时代，可能会减少对传统Transformer的依赖。

🏷️

继续阅读

月之暗面Kimi API充值活动正在继续充值超过500元即可获得20%的奖励
Kimi API 平台正在进行充值活动，至 5 月 3 日，充值满 500 元可获 20% 赠金，超过 5000 元可获 30% 赠金。活动仅限 API ...
开源claude-code-setup：Codex能配得跟Claude Code一样好用！
开源工具claude-code-setup可以将Codex配置得像Claude Code一样好用。用户通过AGENTS.md说明书、config.toml...
世界模型能实时玩了，蚂蚁灵波开源LingBot-World-Fast
蚂蚁集团推出的灵光App新增“体验世界模型”功能，用户可上传图片生成3D世界并进行实时互动。该功能基于开源的LingBot-World-Fast模型，支持...
实测：推荐一个大模型API中转站，1元100刀额度，支持GPT5.5/image2/deepseekv4等主流模型，codex/Claude Code/opencode都可用，便宜稳定！
文章提到一种在线服务，用户只需支付1元即可获得100美元的额度，并支持多种工具，如GPT5.5和Claude Code。作者对使用体验表示满意。
【效果逆天】零样本工业缺陷改变工业质检，颠覆YOLO系列模型效果
最近的零样本测试表明，利用多模态和Transformer大模型可以高效检测工业缺陷，如裂纹和污垢。这项技术实现了零样本检测，显著提高了项目交付速度，适用于...
开源OpenClaw Client小白教程：一个网页管一群龙虾的骚操作全解析
OpenClaw Client是一个开源项目，将命令行工具转变为可视化的多龙虾管理系统。用户可以在网页上创建多个独立的AI龙虾，负责不同任务，如写代码或撰...