AI 论文周报丨Transformer前沿研究专题导读,解析结构稀疏化、记忆机制与推理组织的最新进展
📝
内容提要
北京大学与 DeepSeek-AI 的研究者提出 Engram,一种具有 O(1) 查找复杂度的可扩展条件记忆模块,通过将静态知识检索 Transformer 的早期层中剥离出来并与 MoE 形成互补,从而释放早期层用于更深层的推理计算,并在推理任务(BBH +5.0,ARC-Challenge +3.7)、代码与数学任务(HumanEval +3.0,MATH...
🏷️
标签
➡️