自2017年提出的Transformer架构成为大模型主流,但在规模扩大后暴露出训练和推理效率问题。中国科学院推出的类脑脉冲大模型“瞬悉1.0”在超长序列处理上表现优异,具备低功耗和高效训练能力。
LOCOST是一种基于状态空间模型的编码器-解码器结构,用于生成带有长上下文输入的条件文本。它具有低复杂度的计算和处理超长序列的能力。LOCOST在长篇摘要任务上与同等规模的顶级稀疏转换器相媲美,并在训练和推理过程中节省了大量内存。此外,LOCOST还能有效处理超过600K个标记的输入文本,并在全书摘要任务上达到了新的最先进水平。
完成下面两步后,将自动完成登录并继续当前操作。