BriefGPT - AI 论文速递 ·

双注意力：具有检索和流头的高效长上下文LLM推理

💡 原文英文，约100词，阅读约需1分钟。

📝

内容提要

本研究提出DuoAttention框架，通过将注意力头分为检索头和流头，仅对检索头使用全KV缓存，解决长上下文大型语言模型在推理中的计算和内存问题，减少内存和延迟，同时保持长上下文处理能力。

🎯

🏷️

通过语义元数据Delta共享在Databricks中解锁SAP业务上下文
SAP Business Data Cloud与Databricks Unity Catalog的合作实现了语义元数据的自动同步，使SAP数据更易理解和发...
保罗·梅尔基奥雷：Posette 2026
An Event for Postgres (pronounced /Pō-zet/, and formerly called Citus Con) is...
OpenClaw v2026.4.29：从消息控制到记忆系统彻底进化
这一版主打三件事：让自动化对话更听话、让记忆系统更懂人、让底层基础设施更稳。五个板块一共塞了二十多项改进，从消息流转到安全扫描，从模型接入到网关修复，覆盖...
Roblox的日活跃用户持续下降，年龄检查减缓了增长
Roblox's daily active users continued to slip last quarter due in part to...
国会继续推迟监控改革
Congress has reauthorized Section 702 of the Foreign Intelligence Surveillanc...
尽管面临芯片短缺，苹果iPhone收入跃升至570亿美元
苹果iPhone收入在过去几个月增长22%，达到570亿美元，尽管面临芯片短缺。CEO库克表示需求强劲，但供应链紧张。苹果第二季度收入达1112亿美元，创...