ParallelComp:用于长度外推的并行长上下文压缩器

📝

内容提要

本研究解决了大型语言模型在处理长上下文时的有效长度外推问题,传统方法往往需要昂贵的微调,而训练无关的方法会导致性能大幅下降。我们提出的ParallelComp是一种新颖的训练无关方法,能够将上下文长度从4K扩展到128K,同时保持高吞吐量,并与Flash Attention无缝集成,显著提升了长上下文任务的性能。

➡️

继续阅读