不用额外缓存!英伟达开源大模型记忆压缩方案,128K上下文提速2.7倍

💡 原文中文,约1800字,阅读约需5分钟。
📝

内容提要

英伟达与多所高校合作推出TTT-E2E方法,能将128K上下文处理速度提升2.7倍,动态压缩记忆,避免额外缓存。该技术基于标准Transformer,支持持续学习,适应测试需求。尽管在细节回忆任务中表现不如全注意力模型,但推理延迟稳定,生成文本质量高。

🎯

关键要点

  • 英伟达与多所高校合作推出TTT-E2E方法,提升128K上下文处理速度2.7倍。
  • TTT-E2E技术基于标准Transformer,支持动态学习和记忆压缩,避免额外缓存。
  • 该方法通过实时学习将关键内容压缩到自身权重中,保持模型在测试阶段的学习状态。
  • TTT-E2E采用迷你批处理和滑动窗口策略,提升计算并行度,解决单token梯度更新问题。
  • 精准更新策略只更新模型的MLP层,减少计算成本,避免参数更新混乱。
  • 双MLP设计防止模型在学习新信息时遗忘旧知识。
  • 实验结果显示TTT-E2E在长文本处理上表现优异,推理延迟稳定。
  • TTT-E2E在细节回忆任务中表现不如全注意力模型,存在一定局限性。
  • TTT-E2E的代码和相关论文已完全开源,项目负责人是斯坦福的博士后研究员Yu Sun。
➡️

继续阅读