量子位 ·

Kimi新论文再次“撞车”DeepSeek，都谈到了长文注意力机制

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

Kimi的新论文提出了一种名为MoBA的长文注意力机制，能够将处理1M长文本的速度提升6.5倍。该机制通过将上下文划分为块，并利用top-k门控机制选择相关信息，从而提高长序列数据的处理效率。MoBA在保持模型性能的同时，支持全注意力与稀疏注意力模式的切换，具有良好的扩展性。

🎯

🏷️

Mythos架构被22岁小伙“逆推”开源了！MoE和注意力借鉴DeepSeek
OpenMythos是一种新型的循环深度Transformer架构，采用MoE路由机制，通过跨专家权重共享实现高效推理。在参数量减少近一半的情况下，其性能...
DeepSeek融资别急着冲！100亿美金估值最危险的是退出难！
DeepSeek正在进行3亿美元融资，估值达到100亿美元。融资原因包括人才流失、监管收紧及V4发布压力。尽管估值看似合理，投资者需警惕退出困难，可能面临...
聊聊为什么我要花这么大精力，带大家手写 Agent Harness？
本文永久链接 – https://tonybai.com/2026/04/21/why-we-are-building-agent-harness-fro...
The Lenovo Legion Go S is RAMageddon’s latest victim
You can still find the Asus Xbox Ally X and the MSI Claw 8 AI Plus for $999 a...
我们正在将Gemini功能扩展到亚太地区的用户。
Google is rolling out many of Chrome's latest AI features in Australia, I...
繁忙的插件开发者通讯 - 2026年第一季度
JetBrains更新了插件审批指南，强调插件不得干扰核心产品功能，特别是与许可和订阅相关的机制。同时，插件开发页面进行了重新设计，提供了更清晰的开发和发...