量子位 ·

北大团队改造DeepSeek注意力，速度快四倍还不丢精度

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

北京大学团队提出的新稀疏注意力机制HISA，速度提升2-4倍，几乎不损失精度。该机制通过块级粗过滤和块内精挑字符，降低索引器成本，适应超长文本需求，工程友好性强。测试结果显示HISA在速度和精度上表现优异，未来可进一步优化块特征计算和训练方式。

🎯

❓

HISA通过块级粗过滤和块内精挑字符的方式，降低了索引器的搜索成本，从而实现了速度提升2-4倍。

HISA在精度上几乎与原DSA持平，且在某些任务中表现更优。

HISA的复杂度从O(L²)降至O(L²/B + L×m×B)，显著提高了处理效率。

HISA在长文本理解和关键信息检索任务中表现优异，速度提升显著，精度几乎不变。

HISA无需重新训练模型，直接替换原索引器即可，且对超参数选择不敏感，鲁棒性强。

未来HISA可改进块的自适应性、筛选与模型训练结合，以及测量端到端性能。

🏷️

年入千万，团队为零：拆解全球最牛的6家“一人公司” - 蝈蝈俊
到2026年，单人公司将崛起，年收入可达数百万美元。创始人利用信息和注意力等杠杆，成功运营如BuiltWith和TLDR等公司，展示了数字产品的巨大潜力和...
JDK 25提前加载链接技术：一条命令让Java启动速度快到飞起还省内存
JDK 25引入JEP 514和JEP 515，简化Java程序启动过程并提升速度。JEP 514通过一条命令创建AOT缓存，尽管内存需求增加，但大多数场...
国家机器人周 — 最新的物理AI研究、突破与资源
在国家机器人周，NVIDIA 强调了 AI 在农业、制造业和能源等行业的应用突破。机器人学习、仿真和基础模型的进步加速了从虚拟环境到实际部署的过程。NVI...
Anthropic、AWS、Microsoft和OpenAI的MCP维护者在开发者峰会上阐述企业安全路线图
In a roundtable panel at the MCP Dev Summit last week in New York, Model Cont...
基础模型趋于平稳，应用快速发展
Cursor's parent company Anysphere has about 150 employees. In November 20...
基模到顶，应用起飞
Cursor 的母公司 Anysphere 大概 150 人，2025 年 11 月年收入突破 10 亿美元。OpenAI 到 2026 年初有 4500...