LOCOST: 面向长文档提要生成的状态空间模型
原文中文,约400字,阅读约需1分钟。发表于: 。LOCOST 是基于状态空间模型的编码器 - 解码器结构,用于带有长上下文输入的条件文本生成,具有低复杂度的计算和能够处理超长序列的能力。在长篇摘要任务上评估模型,其性能可与同等规模的顶级稀疏转换器相媲美,同时在训练过程中节省高达 50% 的内存,在推理过程中节省高达 87% 的内存。此外,LOCOST 有效地处理超过 600K...
LOCOST是一种基于状态空间模型的编码器-解码器结构,用于生成带有长上下文输入的条件文本。它具有低复杂度的计算和处理超长序列的能力。LOCOST在长篇摘要任务上与同等规模的顶级稀疏转换器相媲美,并在训练和推理过程中节省了大量内存。此外,LOCOST还能有效处理超过600K个标记的输入文本,并在全书摘要任务上达到了新的最先进水平。