小红花·文摘 - 小红花技术领袖俱乐部

北大团队改造DeepSeek注意力，速度快四倍还不丢精度

量子位 ·

国内最强生图模型Wan2.7-Image来了

量子位 ·

MIT研究团队提出递归语言模型RLM，解决大模型在处理超长文本时的上下文腐烂问题。RLM通过交互式Python环境动态拆解任务，实现千万级token处理能力，显著提升推理性能，无需修改模型架构。

真·开外挂！MIT新研究：架构0改动，让大模型解锁千万级上下文

量子位 ·

TOKENSWIFT框架通过优化模型加载、KV缓存管理和Token生成策略，实现超长文本生成效率提升，生成10万Token仅需90分钟，传统方法需5小时，确保生成质量与多样性，支持DeepSeek-R1和QwQ，具有3倍加速效果。

90分钟生成10万Token，新框架实现3倍无损加速超长文本生成，支持DeepSeek-R1和QwQ！

量子位 ·

清华、厦大等提出的LLMxMapReduce技术突破了大模型的记忆限制，实现了“无限长”上下文。该技术通过将长文本切分为片段并并行处理，提取关键信息并汇总答案。实验表明，结合此框架的模型在处理超长文本时表现优异且速度较快，具有广泛的应用潜力。

清华厦大等提出“无限长上下文”技术，100万大海捞针全绿，Llama\Qwen\MiniCPM都能上分

量子位 ·