量子位 ·

不用额外缓存！英伟达开源大模型记忆压缩方案，128K上下文提速2.7倍

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

英伟达与多所高校合作推出TTT-E2E方法，能将128K上下文处理速度提升2.7倍，动态压缩记忆，避免额外缓存。该技术基于标准Transformer，支持持续学习，适应测试需求。尽管在细节回忆任务中表现不如全注意力模型，但推理延迟稳定，生成文本质量高。

🎯

关键要点

英伟达与多所高校合作推出TTT-E2E方法，提升128K上下文处理速度2.7倍。
TTT-E2E技术基于标准Transformer，支持动态学习和记忆压缩，避免额外缓存。
该方法通过实时学习将关键内容压缩到自身权重中，保持模型在测试阶段的学习状态。
TTT-E2E采用迷你批处理和滑动窗口策略，提升计算并行度，解决单token梯度更新问题。
精准更新策略只更新模型的MLP层，减少计算成本，避免参数更新混乱。
双MLP设计防止模型在学习新信息时遗忘旧知识。
实验结果显示TTT-E2E在长文本处理上表现优异，推理延迟稳定。
TTT-E2E在细节回忆任务中表现不如全注意力模型，存在一定局限性。
TTT-E2E的代码和相关论文已完全开源，项目负责人是斯坦福的博士后研究员Yu Sun。

🏷️

继续阅读

苹果官宣核心管理层调整；英伟达停产向中国销售H200芯片；安世荷兰批量禁用安世中国员工办公软件
苹果调整管理层，英伟达停产H200芯片，安世禁止中国员工使用办公软件，腾讯推出OpenClaw引发用户排队，甲骨文计划裁员。
上下文衰退如何影响企业AI和大型语言模型（LLM）的结果，以及如何解决这一问题
上下文衰退影响企业AI和大型语言模型（LLM）的表现。旧数据未被清除，导致信息混乱和推理能力下降。企业需监控关键数据指标，清除过时数据，以提升AI的准确性和效率。
记忆不上云：mem9 + TiDB 打造 OpenClaw 私有记忆中枢
在本地化前，记忆数据存储在 mem9.ai 云端。迁移时只需更新租户记录，将 db_host 改为本地 TiDB，其他逻辑保持不变。数据平面独立，存储后端可随时替换。
2026年你应该尝试的6个最佳AI代理记忆框架
Bala Priya C是一位来自印度的开发者和技术作家，专注于数学、编程、数据科学和内容创作。她的兴趣包括DevOps、数据科学和自然语言处理，热爱阅读...
2026.3.9
文章描述了处理肇事逃逸事故的复杂性，包括车辆损失评估、与保险公司沟通的困难，以及对各机构的不信任，反映出人们在面对这些问题时的无力感和荒谬。
苹果智能家居显示器的传闻现在指向将在秋季发布，搭载iOS 27
The rumored "HomePod with a screen" we've heard so much about was...

不用额外缓存！英伟达开源大模型记忆压缩方案，128K上下文提速2.7倍

内容提要

关键要点

标签

继续阅读