小红花·文摘

英伟达与多所高校合作推出TTT-E2E方法，能将128K上下文处理速度提升2.7倍，动态压缩记忆，避免额外缓存。该技术基于标准Transformer，支持持续学习，适应测试需求。尽管在细节回忆任务中表现不如全注意力模型，但推理延迟稳定，生成文本质量高。

不用额外缓存！英伟达开源大模型记忆压缩方案，128K上下文提速2.7倍

量子位 ·

为什么主流大模型的上下文窗口都是128k？| 深度

实时互动网 ·

机器之心数据服务现已上线，提供高效稳定的数据获取服务，简化数据爬取流程。

8B模型可以超过GPT-4o！并行KV Cache压缩支持的128K长度外推方法ParallelComp

机器之心 ·

本文介绍了支持高达32,768个令牌的长上下文LLMs，通过预训练和上采样长文本数据集构建。模型在语言模型、合成上下文探索任务和研究基准上取得了改进，并在长上下文任务上相对于Llama 2有显著提升。通过指令调整过程，70B变体在长上下文任务中超过了gpt-3.5-turbo-16k的整体性能。对模型的各个组成部分进行了深入分析。

扩容 Granite 代码模型至 128K 上下文

BriefGPT - AI 论文速递 ·