UniMem:面向长上下文大型语言模型的统一视图

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

提出了一种新的语义压缩方法,使得基于Transformer的大型语言模型适用于长度为原先的6-8倍的文本,无需显著计算开销或微调。该方法通过源编码概念和预训练模型,减少长输入的语义冗余后再传递给LLM进行下游任务。实验结果表明,该方法有效地扩展了LLM在问答、摘要、少样本学习和信息检索等任务中的上下文窗口,并且能够保持生成文本的流畅性。

原文中文,约300字,阅读约需1分钟。
阅读原文