量子位 ·

真·开外挂！MIT新研究：架构0改动，让大模型解锁千万级上下文

💡 原文中文，约1700字，阅读约需4分钟。

📝

内容提要

MIT研究团队提出递归语言模型RLM，解决大模型在处理超长文本时的上下文腐烂问题。RLM通过交互式Python环境动态拆解任务，实现千万级token处理能力，显著提升推理性能，无需修改模型架构。

🎯

🔎

大模型在处理超长文本时常常面临上下文腐烂的问题，导致推理性能下降。MIT的RLM通过将上下文处理外包给Python环境，避免了直接在模型中进行复杂的上下文管理，从而有效提升了处理能力。这一创新方法为大模型的应用场景拓展提供了新的可能性。

尽管RLM在大多数常规任务中展现出较高的性价比，但在处理高复杂度任务时，其成本会显著增加。这是因为RLM的动态推理过程需要更多的API调用，增加了整体开销。因此，用户在选择使用RLM时需权衡任务复杂度与成本之间的关系。

RLM作为一种不依赖于特定模型架构的通用推理策略，理论上可以适用于任何大模型。这一特性使得RLM在未来的研究和应用中具有广泛的适用性，可能推动更多模型的创新与发展。

❓

RLM主要用于解决大模型在处理超长文本时的上下文腐烂问题，能够处理千万级token的文本。

RLM通过交互式Python环境动态拆解任务，按需处理文本，从而提升推理性能。

RLM将上下文处理外包给可交互的Python环境，而不是直接在模型内部处理，避免了架构修改。

在复杂长文本任务中，RLM的F1分数显著高于基础模型，表现出明显的优势。

在大多数常规任务中，RLM的性价比高，但在高复杂度任务中成本会显著增加。

是的，RLM是一种通用推理策略，理论上适用于任何模型，无需修改模型架构。

🏷️